-
公开(公告)号:CN112836019A
公开(公告)日:2021-05-25
申请号:CN202110195263.2
申请日:2021-02-19
Applicant: 中国科学院新疆理化技术研究所
IPC: G06F16/33 , G06F16/36 , G06F40/242 , G06F40/295 , G06N20/00
Abstract: 本发明公开了一种公共医疗卫生命名实体识别与实体链接的方法、装置、电子设备以及存储介质,包括:获取多个中文命名实体识别数据集,并训练得到一个群模型;通过实施特定的迁移学习方法得到一个细粒度的命名实体识别模型;抽取面向公共卫生与医疗知识图谱中的实体,并利用实体字符序列构建字典树实体匹配模型;将输入文本的多源字符序列表示输入到上述多种模型中得到识别出的命名实体集合,并将集合中的实体链接到知识图谱中的某一实体项;将所述输入文本的命名实体链接到对应知识图谱。根据本申请的技术既可以保证模型具备较高的识别率,又可以保证模型在较小样本的情况能够快速学习到新的实体类别,提高模型的适应能力。
-
公开(公告)号:CN104933039B
公开(公告)日:2018-03-20
申请号:CN201510304943.8
申请日:2015-06-04
Applicant: 中国科学院新疆理化技术研究所
IPC: G06F17/28
Abstract: 本发明涉及一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。通过本发明所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。
-
公开(公告)号:CN104699763A
公开(公告)日:2015-06-10
申请号:CN201510072955.2
申请日:2015-02-11
Applicant: 中国科学院新疆理化技术研究所
IPC: G06F17/30
CPC classification number: G06F17/3061
Abstract: 本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。
-
-