一种基于机器学习的从半结构化文档中提取问答对的方法

    公开(公告)号:CN111078875B

    公开(公告)日:2022-12-13

    申请号:CN201911222877.4

    申请日:2019-12-03

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。

    一种面向特定领域开放网络问句的文本分类方法

    公开(公告)号:CN111046179B

    公开(公告)日:2022-07-15

    申请号:CN201911222868.5

    申请日:2019-12-03

    Abstract: 本发明属于文本分类处理技术领域,具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下,缺乏足够可用的带类别标记的语料集,且网络文本信息量低、噪音大的问题,并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征,同时,使用半监督方法加速分类模型训练并减少所需的标记样本。此外,还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答系统、情感分析、领域知识库等领域辅助数据的提取、判别和构建。

    一种领域文本主题抽取方法

    公开(公告)号:CN112836507A

    公开(公告)日:2021-05-25

    申请号:CN202110039892.6

    申请日:2021-01-13

    Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

    一种基于机器学习的从半结构化文档中提取问答对的方法

    公开(公告)号:CN111078875A

    公开(公告)日:2020-04-28

    申请号:CN201911222877.4

    申请日:2019-12-03

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。

    一种基于结构化查询语言语句的源信息追踪方法

    公开(公告)号:CN102402615A

    公开(公告)日:2012-04-04

    申请号:CN201110434707.X

    申请日:2011-12-22

    Abstract: 本发明提供了一种基于结构化查询语言语句的源信息追踪方法。首先将SQL语句按其不同的结构进行分类,之后对不同类型的SQL语句进行逆向处理,在得到源信息后将源信息进行存储,并在源信息上再次执行原SQL语句,与之前得到的结果集进行对比,得出结论。该源信息查询方法已经通过实际数据进行了验证,验证结果证明该方法与其他数据血缘方法相比,可以在原有SQL的基础上,直接对SQL语句进行处理,将其有效的转化成源信息查询语句,并成功查找到对应的源信息。本发明提供的数据追踪方法适用于关系数据库中源信息的查询,可应用在各领域中对源信息进行的查询和存储。

    一种在病历中快速提取十二导联心电图的方法

    公开(公告)号:CN114519369B

    公开(公告)日:2024-11-01

    申请号:CN202210066080.5

    申请日:2022-01-20

    Abstract: 本发明属于计算机视觉技术领域,具体涉及一种在病历中快速提取十二导联心电图的方法。本发明包括病历数据的预处理以及手工定义特征的二次细化,使用该二次细化可以加速人工标记过程,加快了模型训练过程。本发明通过定义卷积神经网络EcgNet;结合设置特征和卷积神经神经网络训练模型实现自动提取十二导联心电图,经过检验该模型提取的十二导联心电图具有单边100%的准确率,提取的心电图达到人工提取的水平。本发明可以快速精准的从病历数据中提取出满足要求的十二导联心电图,训练好模型后的提取过程快速且不需要人力参与,极大地节省了人力物力,加速了心血管疾病患者的临床数据集的构建。

    一种面向中文医疗文本命名实体识别的方法

    公开(公告)号:CN111079377A

    公开(公告)日:2020-04-28

    申请号:CN201911223532.0

    申请日:2019-12-03

    Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

Patent Agency Ranking