-
公开(公告)号:CN111046665A
公开(公告)日:2020-04-21
申请号:CN201911222879.3
申请日:2019-12-03
Applicant: 哈尔滨工程大学
IPC: G06F40/289 , G06F40/30
Abstract: 本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
-
公开(公告)号:CN111079377B
公开(公告)日:2022-12-13
申请号:CN201911223532.0
申请日:2019-12-03
Applicant: 哈尔滨工程大学
IPC: G06F40/117 , G06F40/289 , G06F40/295 , G06F40/279 , G06N3/04
Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。
-
公开(公告)号:CN111046665B
公开(公告)日:2023-10-13
申请号:CN201911222879.3
申请日:2019-12-03
Applicant: 哈尔滨工程大学
IPC: G06F40/289 , G06F40/30
Abstract: 本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
-
公开(公告)号:CN111078875B
公开(公告)日:2022-12-13
申请号:CN201911222877.4
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。
-
公开(公告)号:CN111046179B
公开(公告)日:2022-07-15
申请号:CN201911222868.5
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于文本分类处理技术领域,具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下,缺乏足够可用的带类别标记的语料集,且网络文本信息量低、噪音大的问题,并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征,同时,使用半监督方法加速分类模型训练并减少所需的标记样本。此外,还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答系统、情感分析、领域知识库等领域辅助数据的提取、判别和构建。
-
公开(公告)号:CN111078875A
公开(公告)日:2020-04-28
申请号:CN201911222877.4
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。
-
公开(公告)号:CN111079377A
公开(公告)日:2020-04-28
申请号:CN201911223532.0
申请日:2019-12-03
Applicant: 哈尔滨工程大学
IPC: G06F40/117 , G06F40/289 , G06F40/295 , G06F40/279 , G06N3/04
Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。
-
公开(公告)号:CN111046179A
公开(公告)日:2020-04-21
申请号:CN201911222868.5
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于文本分类处理技术领域,具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下,缺乏足够可用的带类别标记的语料集,且网络文本信息量低、噪音大的问题,并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征,同时,使用半监督方法加速分类模型训练并减少所需的标记样本。此外,还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答系统、情感分析、领域知识库等领域辅助数据的提取、判别和构建。
-
-
-
-
-
-
-