-
公开(公告)号:CN105760366A
公开(公告)日:2016-07-13
申请号:CN201610150038.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2715 , G06F17/277
Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
-
公开(公告)号:CN111353300B
公开(公告)日:2023-09-01
申请号:CN202010093817.3
申请日:2020-02-14
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , G06F40/289 , G06F18/214 , G06F18/241
Abstract: 本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。
-
公开(公告)号:CN110020433B
公开(公告)日:2023-04-18
申请号:CN201910256769.2
申请日:2019-04-01
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种基于企业关联关系的工商高管人名消歧方法,涉及实体消歧领域,包括以下步骤:将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。本发明能自动化对工商高管人名进行消歧,具有较高的消歧准确率,且具有一定的阈值设置灵活性,可满足较多应用场景的工商高管人名消歧;同时可构建高管任职关联关系、高管投资关联关系,为高管全视角的关联图谱分析提供支撑。
-
公开(公告)号:CN111353300A
公开(公告)日:2020-06-30
申请号:CN202010093817.3
申请日:2020-02-14
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , G06F40/289 , G06K9/62
Abstract: 本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。
-
公开(公告)号:CN111401448B
公开(公告)日:2024-05-24
申请号:CN202010183470.1
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/284
Abstract: 本发明提供了一种交易平台分类方法和装置,包括步骤:数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据包括自然语言,对所述第二数据进行第一预处理,生成第三数据;数据处理,对所述第三数据进行分析,根据数据相关度,判定所述第三数据为第一类数据或第二类数据;分类模型建立,将所述第一类数据和第二类数据根据样本数和学习率建立分类模型;平台分类,接收平台数据和所述第三数据,将所述第三数据输入所述分类模型,判定所述第三数据为第一类数据或第二类数据;分析平台数据,判定与所述平台数据相关的第三数据。通过数据采集,数据处理,分类模型建立,平台分类,判断平台为场内或场外平台。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN111401450A
公开(公告)日:2020-07-10
申请号:CN202010184062.8
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06K9/62 , G06F40/284 , G06Q40/04
Abstract: 本发明提供了一种交易场所分类方法和装置,包括步骤:接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对所述第二数据进行标记处理,生成第三数据;对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换,得出第五数据,根据所述第五数据,生成第一模型;将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一库生成所述第一边界,将所述第二部分导入验证,得出第二模型;接收场所信息,将所述场所信息进行所述第二预处理得出所述第一信息,将所述第一信息导入所述第二模型,得出场所类别。通过分界线判断所述场所类别,在直观而且快捷的同时,提高所述场所类别的划分准确性。
-
公开(公告)号:CN111401448A
公开(公告)日:2020-07-10
申请号:CN202010183470.1
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06K9/62 , G06F40/284
Abstract: 本发明提供了一种交易平台分类方法和装置,包括步骤:数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据包括自然语言,对所述第二数据进行第一预处理,生成第三数据;数据处理,对所述第三数据进行分析,根据数据相关度,判定所述第三数据为第一类数据或第二类数据;分类模型建立,将所述第一类数据和第二类数据根据样本数和学习率建立分类模型;平台分类,接收平台数据和所述第三数据,将所述第三数据输入所述分类模型,判定所述第三数据为第一类数据或第二类数据;分析平台数据,判定与所述平台数据相关的第三数据。通过数据采集,数据处理,分类模型建立,平台分类,判断平台为场内或场外平台。
-
公开(公告)号:CN111369369A
公开(公告)日:2020-07-03
申请号:CN202010184061.3
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种微盘交易平台监控系统,包括:规则管理模块,用于设定、维护微盘交易平台违法违规判定规则、决策分析规则;数据处理模块,用于采集或导入微盘交易平台信息,并将信息标准化后存入数据库;违规分析处理模块:用于根据违法违规判定规则对微盘交易平台进行判定分析;决策分析模块:用于根据决策分析规则,对微盘平台进行综合分析和评级;预警通知模块:用于将判定有风险的微盘交易平台进行预警通知;本发明还提供了一种微盘交易平台监控方法,对微盘交易平台进行监管,及时发现违法违规的微盘交易平台,进行示警,用户根据示警信息能及时知悉违法违规的微盘交易平台,能根据示警信息及时对违法违规的微盘交易平台进行处理。
-
公开(公告)号:CN111382181B
公开(公告)日:2024-08-02
申请号:CN202010183474.X
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06Q40/06 , G06Q40/04 , G06Q10/0635
Abstract: 本发明涉及数据处理的技术领域,具体涉及一种基于股权穿透的指定企业派系归属分析方法及系统,包括对每个待分析企业信息数据进行采集存储,得到原始信息数据,信息数据包括股东信息数据;根据原始信息数据对每个待分析企业向上发散计算股权链路占比,并确定所述每个待分析企业的全部股东,所述全部股东包括最终股东;通过检索出与所述最终股东相关的关联待分析企业,生成与最终股东相关的第一派系信息数据;对第一派系信息数据进行合并,生成最终派系信息数据;通过对股东信息进行采集存储以及分析,从而计算出每个待分析企业的向上发散计算股权链路占比。对待分析企业进行了基于最终股东的集合划分,为企业关联分析提供支撑。
-
-
-
-
-
-
-
-
-