-
公开(公告)号:CN109492026B
公开(公告)日:2021-11-09
申请号:CN201811301410.4
申请日:2018-11-02
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458 , G06Q50/30
Abstract: 本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。
-
公开(公告)号:CN107451192A
公开(公告)日:2017-12-08
申请号:CN201710508428.0
申请日:2017-06-28
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/3071 , G06K9/6267
Abstract: 本发明公开了一种基于分解聚合的电信诈骗电话的分类检测方法,属于数据挖掘、机器学习和商务智能等领域。首先对原始CDR数据进行不同正负类比例的横向划分与采样,针对某训练样本,随机抽取特定比例的特征属性用于构造基础分类器;对任一训练样本,根据基础分类器的输出结果构造分类矩阵,对各相同比例中的分类结果进行聚合,并通过最大投票法确定各类别比例下的投票结果。将各个比例分类器中的分类结果作为新的分类特征构造二级分类器,确定各正负比例的基分类器对于测试结果的权重。本发明适用于各种大数据场景下的不平衡分类,避免了不同正负类样本比例下模型精度的波动性,分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。
-
公开(公告)号:CN109492026A
公开(公告)日:2019-03-19
申请号:CN201811301410.4
申请日:2018-11-02
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458 , G06Q50/30
Abstract: 本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。
-
-