-
公开(公告)号:CN106294490A
公开(公告)日:2017-01-04
申请号:CN201510309500.8
申请日:2015-06-08
Applicant: 富士通株式会社
Abstract: 本发明公开了一种对数据样本进行特征增强的方法和装置以及分类器的训练方法和装置。根据本发明的一个方面,对数据样本进行特征增强的方法包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。由此,能够增强不均衡数据集中的少数数据样本的特征,从而使得该不均衡的数据集可用于训练诸如分类器的数据挖掘工具,并取得较好的效果。
-
公开(公告)号:CN106294343A
公开(公告)日:2017-01-04
申请号:CN201510240407.6
申请日:2015-05-13
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/355
Abstract: 本发明实施例提供一种数据聚类方法、模型融合方法以及装置。所述数据聚类方法包括:利用训练数据进行训练得到多个分类器模型;根据多个分类器模型预测验证数据的类别并得到预测结果矩阵;根据所述验证数据的特征以及所述预测结果矩阵,对所述验证数据的特征空间进行划分以将所述验证数据聚为多个类。本发明实施例不仅考虑数据自身的特征而且考虑不同模型在数据上的预测性能来对数据进行聚类;由此不仅能达到划分数据特征空间的目的,而且使数据特征空间的划分更适合多个模型的融合,能够提高融合系统的性能。
-
公开(公告)号:CN106156783A
公开(公告)日:2016-11-23
申请号:CN201510136857.0
申请日:2015-03-26
Applicant: 富士通株式会社
IPC: G06K9/62
Abstract: 本发明公开了对待测数据样本进行分类的方法和装置。根据本发明的一个方面,对待测数据样本进行分类的方法包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
-
-