-
公开(公告)号:CN110532542B
公开(公告)日:2021-07-13
申请号:CN201910636175.4
申请日:2019-07-15
Applicant: 西安交通大学
IPC: G06F40/289 , G06K9/62 , G06Q40/00
Abstract: 本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。
-
公开(公告)号:CN110532542A
公开(公告)日:2019-12-03
申请号:CN201910636175.4
申请日:2019-07-15
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。
-
公开(公告)号:CN109948645A
公开(公告)日:2019-06-28
申请号:CN201910065095.8
申请日:2019-01-23
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于深度对抗迁移学习的企业偷漏税识别方法,包括:首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别。本发明通过利用源区域的纳税数据,构建适用于目标区域的偷漏税识别模型,解决了因目标区域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题。
-
-