Invention Grant
- Patent Title: 一种基于机器学习的数据分类方法及设备
-
Application No.: CN201710051325.6Application Date: 2017-01-23
-
Publication No.: CN106815605BPublication Date: 2021-04-13
- Inventor: 李洋 , 张志勇 , 高政伟
- Applicant: 上海上讯信息技术股份有限公司
- Applicant Address: 上海市浦东新区张江高科技园区郭守敬路498号8幢20300室
- Assignee: 上海上讯信息技术股份有限公司
- Current Assignee: 上海上讯信息技术股份有限公司
- Current Assignee Address: 上海市浦东新区张江高科技园区郭守敬路498号8幢20300室
- Agency: 上海百一领御专利代理事务所
- Agent 甘章乖
- Main IPC: G06K9/62
- IPC: G06K9/62 ; G06N20/00

Abstract:
本发明提出了一种基于机器学习的数据分类方法,包括如下步骤:S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据特征词对学习数据进行分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型;一种基于机器学习的数据分类设备包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块。本发明对文件内容进行切词处理,采用TFIDF算法,算出词的权重,然后计算文件相似度,将同类文件进行聚类。特征词提取。特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。
Public/Granted literature
- CN106815605A 一种基于机器学习的数据分类方法及设备 Public/Granted day:2017-06-09
Information query