-
公开(公告)号:CN113255353A
公开(公告)日:2021-08-13
申请号:CN202110598353.6
申请日:2021-05-31
Applicant: 中国科学院计算技术研究所厦门数据智能研究院
IPC: G06F40/295 , G06F40/237 , G06F40/284 , G06F16/951 , G06F16/35 , G06N3/04
Abstract: 本发明公开了一种实体标准化方法,包括以下步骤:步骤一:建立标准实体词的知识库;步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;步骤五:将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果;通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。
-
公开(公告)号:CN112231461A
公开(公告)日:2021-01-15
申请号:CN202011182518.3
申请日:2020-10-29
Applicant: 中国科学院计算技术研究所厦门数据智能研究院
IPC: G06F16/332 , G06F16/36 , G06F40/126 , G06F40/205 , G06F40/284 , G06F40/295
Abstract: 本发明公开了一种融合知识的对话生成方法,包括如下步骤:S1、构建知识图谱;S2、构建对话模型,所述对话模型由编码器和解码器组成,构建过程包括词编码、知识编码、双跳实体编码、加权合并和解码。本发明引入图编码和图注意力机制进行双跳实体编码,基于相邻实体之间的关系,更好地捕捉对话中的实体语义;同时结合知识图谱围绕对话涉及的概念知识,从而给出更合理的富有信息量的回复,解决当前对话过程中话题概念飘移和扩展的问题。
-
公开(公告)号:CN111259933A
公开(公告)日:2020-06-09
申请号:CN202010022431.3
申请日:2020-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62 , G06F16/27 , G06F16/28 , G06F16/2458
Abstract: 本发明提出一种基于分布式并行决策树的高维特征数据分类方法及系统。实现了基于Spark的面向高维特征数据的并行决策树算法,该并行算法并行程度高,可以处理大规模数据集,不仅在决策树中同一层节点之间进行并行计算,而且能够在特征层面上进行并行计算,提高了高维数据的并行程度,能够有效减少高维特征的处理时间。
-
公开(公告)号:CN108563715A
公开(公告)日:2018-09-21
申请号:CN201810271602.9
申请日:2018-03-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。
-
公开(公告)号:CN105825269B
公开(公告)日:2018-06-26
申请号:CN201610147007.5
申请日:2016-03-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。
-
公开(公告)号:CN111259941B
公开(公告)日:2023-09-26
申请号:CN202010025566.5
申请日:2020-01-10
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提出一种基于细粒度领域自适应的跨领域图像分类方法及系统,包括:依次输入源领域图片和目标领域图片至卷积神经网络,分别得到源领域图片的源特征向量和目标领域图片的目标特征向量;依次输入源特征向量和目标特征向量至多层全连接层,在每个全连接层使用局部最大均值差异损失衡量源领域和目标领域的特征差异,将源特征向量经过多层全连接层处理后送入分类器获得预测标签,预测标签结合预标记的类别标签得到交叉熵,交叉熵和特征差异作为分类损失函数;最小化分类损失函数,直到分类损失函数收敛,保存当前卷积神经网络作为图像特征提取网络,将目标领域中待分类图片输入至图像特征提取网络,得到待分类图片的图像分类结果。
-
公开(公告)号:CN111259933B
公开(公告)日:2023-06-13
申请号:CN202010022431.3
申请日:2020-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F18/2431 , G06N5/01 , G06F16/27 , G06F16/28 , G06F16/2458
Abstract: 本发明提出一种基于分布式并行决策树的高维特征数据分类方法及系统。实现了基于Spark的面向高维特征数据的并行决策树算法,该并行算法并行程度高,可以处理大规模数据集,不仅在决策树中同一层节点之间进行并行计算,而且能够在特征层面上进行并行计算,提高了高维数据的并行程度,能够有效减少高维特征的处理时间。
-
公开(公告)号:CN112199491B
公开(公告)日:2022-04-22
申请号:CN202011099237.1
申请日:2020-10-14
Applicant: 中国科学院计算技术研究所厦门数据智能研究院
IPC: G06F16/335 , G06F40/30 , G06F16/36
Abstract: 本发明公开了一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:预处理;提取语义特征向量;融合拼接;s抽取阶段;p、o抽取阶段;t、l抽取阶段;最终得到关系五元组的特征向量h+pre+s+p+o+t+l。本发明利用BERT模型与先验知识特征融合的方法抽取文本的关系五元组,利用概率图结合指针结构,解决了一种关系对应多个实体以及实体重叠的问题。
-
公开(公告)号:CN108563715B
公开(公告)日:2020-12-04
申请号:CN201810271602.9
申请日:2018-03-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2458 , G06F16/22 , G06F8/30
Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。
-
公开(公告)号:CN111967267A
公开(公告)日:2020-11-20
申请号:CN202011009623.7
申请日:2020-09-23
Applicant: 中国科学院计算技术研究所厦门数据智能研究院
IPC: G06F40/295 , G06F40/289 , G06F16/951 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本发明公开了一种基于XLNet的新闻文本地域提取的方法及系统,其方法包括如下步骤:S1、利用互联网上获取海量未标注生语料,输入XLNet预训练模型中进行预训练;S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码,将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出识别后的地域实体;S3、地域实体消歧;S4、地域实体汇总;S5、地域主体补全操作;其系统包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题,解决了传统的自回归模型无法同时学习上下文信息的痛点,实现了完整建模。
-
-
-
-
-
-
-
-
-