一种汉语自然语言文本的词语切分方法

    公开(公告)号:CN110969009B

    公开(公告)日:2023-10-13

    申请号:CN201911223545.8

    申请日:2019-12-03

    Abstract: 本发明属于自然语言文本处理技术领域,具体涉及一种汉语自然语言文本的词语切分方法。本发明基于无监督学习中的基于良好度量的方法设计,在其中加入了少量工作量的人工的步骤,即需要人工整理中心词,人工整理中心词的优点是使词表的质量和词语类别更加可控,进一步地,可以降低对语料词语分布特征的需求,特别适用于语料的词语分布不理想以及领域合成词的中心词数量较少的情况。本发明的词语切分方法适用于领域的自然语言文本,特别地,最适用于在领域合成词和非标准词较多的领域,其分词效果好于通用的开放域分词工具的效果,结果有益于进一步在相关领域自然语言处理的后续步骤,特别是在知识抽取或知识图谱中的应用中。

    一种基于多模态数据的心功能分级系统

    公开(公告)号:CN116386890A

    公开(公告)日:2023-07-04

    申请号:CN202310365991.2

    申请日:2023-04-07

    Abstract: 一种基于多模态数据的心功能分级系统,具体涉及一种适用于心力衰竭的基于多模态数据的心功能分级系统,为了解决在利用机器学习系统分析心力衰竭数据时只使用一种检查数据容易产生误差,导致心功能分级效果不理想,使得心力衰竭检查结果不准确的问题。它依次包括数据读取模块、多模态机器学习模块、训练模块和测试模块,数据读取模块用于读取多模态的检查数据;多模态机器学习模块,用于接收数据读取模块的检查数据,对检查数据进行分析,输出心功能分级;它依次包括数据融合单元、特征提取单元和分级单元,训练模块用于训练多模态机器学习模块,测试模块用于测试多模态机器学习模块。属于医疗领域。

    一种领域文本主题抽取方法

    公开(公告)号:CN112836507B

    公开(公告)日:2022-12-09

    申请号:CN202110039892.6

    申请日:2021-01-13

    Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

    一种四险一金领域知识图谱中实体对齐方法

    公开(公告)号:CN112131404B

    公开(公告)日:2022-09-27

    申请号:CN202010990634.1

    申请日:2020-09-19

    Abstract: 本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

    一种文本语料库的关系抽取方法

    公开(公告)号:CN112836062B

    公开(公告)日:2022-05-13

    申请号:CN202110039879.0

    申请日:2021-01-13

    Abstract: 本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

    一种四险一金领域知识图谱中实体对齐方法

    公开(公告)号:CN112131404A

    公开(公告)日:2020-12-25

    申请号:CN202010990634.1

    申请日:2020-09-19

    Abstract: 本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

    一种面向中文医疗文本命名实体识别的方法

    公开(公告)号:CN111079377B

    公开(公告)日:2022-12-13

    申请号:CN201911223532.0

    申请日:2019-12-03

    Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

    一种在病历中快速提取十二导联心电图的方法

    公开(公告)号:CN114519369A

    公开(公告)日:2022-05-20

    申请号:CN202210066080.5

    申请日:2022-01-20

    Abstract: 本发明属于计算机视觉技术领域,具体涉及一种在病历中快速提取十二导联心电图的方法。本发明包括病历数据的预处理以及手工定义特征的二次细化,使用该二次细化可以加速人工标记过程,加快了模型训练过程。本发明通过定义卷积神经网络EcgNet;结合设置特征和卷积神经神经网络训练模型实现自动提取十二导联心电图,经过检验该模型提取的十二导联心电图具有单边100%的准确率,提取的心电图达到人工提取的水平。本发明可以快速精准的从病历数据中提取出满足要求的十二导联心电图,训练好模型后的提取过程快速且不需要人力参与,极大地节省了人力物力,加速了心血管疾病患者的临床数据集的构建。

    一种四险一金领域政策法规文本实体识别方法

    公开(公告)号:CN112836046A

    公开(公告)日:2021-05-25

    申请号:CN202110039836.2

    申请日:2021-01-13

    Abstract: 本发明属于命名实体识别技术领域,具体涉及一种四险一金领域政策法规文本实体识别方法。本发明通过预训练语言模型BERT得到每个字符基于上下文特征动态生成的具有上下文语义信息的字向量,通过word2vec中的skip‑gram模型得到每个词语的词向量,将具有上下文语义信息的字向量和其所在的词的词向量利用维度拼接的方式进行特征融合,得到联合字词向量,不仅可以弥补少量标注样本特征不足和字符语义提取不充分的问题,还为字向量补充了词级短语信息,从而在一定程度上提高模型的准确率。本发明可以有效解决四险一金领域命名实体识别任务中标注数据不足以及识别精度不高的问题。

Patent Agency Ranking