-
公开(公告)号:CN104881401B
公开(公告)日:2017-10-17
申请号:CN201510278103.9
申请日:2015-05-27
Applicant: 大连理工大学
IPC: G06F17/27
Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
-
公开(公告)号:CN104750819A
公开(公告)日:2015-07-01
申请号:CN201510147696.5
申请日:2015-03-31
Applicant: 大连理工大学
Abstract: 一种基于词分组排序算法的生物医学文献检索方法及系统,检索方法包括S1、搜索引擎查询提取步骤;S2、候选扩展词汇提取步骤;S3、候选扩展词汇的特征提取及标注步骤;S4、候选扩展词汇排序模型训练步骤;S5、在线搜索引擎查询与提取步骤;S6、在线候选扩展词汇提取及其特征提取及打分步骤;S7、查询结果返回步骤。检索系统包括搜索引擎查询提取模块、候选扩展词汇提取模块、候选扩展词汇的特征提取及标注模块、候选扩展词汇排序模型训练模块、 查询重构模块、查询结果返回模块。本发明从查询扩展角度出发,通过在查询扩展中利用词分组排序算法和生物医学领域固有词典资源选择最能表达用户信息需求的专业词汇,完成检索任务,改善检索的性能。
-
公开(公告)号:CN104636456A
公开(公告)日:2015-05-20
申请号:CN201510057352.5
申请日:2015-02-03
Applicant: 大连理工大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/3053 , G06Q50/01
Abstract: 本发明涉及一种问题路由方法,一种基于词向量的问题路由方法,包括以下步骤:步骤1、用户档案的构建;步骤2、数据预处理;步骤3、词向量的训练;步骤4、文档向量的表示;步骤5、用户权威度的计算;步骤6、用户活跃度的计算;步骤7、候选回答者排序;本发明利用word2vec训练数据效率高,词向量具有叠加性,克服了文档之间没有共现词相似度为0的缺点;同时抽取文档主题词,用词向量表示文档向量,综合计算权威度和活跃度,以及文档向量之间的相似度,既考虑了文档之间的语义信息,又减少了噪音。分别与经典的TF_IDF和Language Model进行了对比实验,本发明方法的S@N均高于其他两种方法。
-
公开(公告)号:CN119646226A
公开(公告)日:2025-03-18
申请号:CN202411861672.1
申请日:2024-12-17
Applicant: 大连理工大学
IPC: G06F16/353 , G06F40/211 , G06F40/30 , G06F40/289 , G06N3/045 , G06F18/2415 , G06N3/0464 , G06N3/0442
Abstract: 一种基于多动词提取和思维链提示的动词隐喻识别方法,属于深度学习中自然语言处理领域,用于中文句子的隐喻识别,要点是提取数据集中的文本中的动词;对大模型进行思维链提示得所述动词是否为隐喻的提示结果;将所述文本中所述动词所在的句子与所述动词拼接并编码得句子特征向量;将所述提示结果编码为思维链特征向量;以一定权重比例将所述句子特征向量与所述思维链特征向量拼接得拼接特征向量;将所述拼接特征向量输入分类模型中进行隐喻性判断,得所述句子是否包含隐喻的判断结果,本发明能够显著改善隐喻识别的准确性和解释性。
-
公开(公告)号:CN114880461B
公开(公告)日:2024-10-15
申请号:CN202210623480.1
申请日:2022-06-02
Applicant: 大连理工大学
IPC: G06F16/34 , G06F16/35 , G06F18/2415 , G06N3/0442 , G06N3/0455 , G06N3/088 , G06N3/092
Abstract: 本发明提出一种结合对比学习和预训练技术的中文新闻文本摘要方法,包括(1)构建对比学习输入数据;(2)使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类打分,抽取包含关键信息的候选句得到候选句集合;(3)将候选句集合输入到结合中文新闻语料微调后的MT5模型中,生成摘要结果;(4)结合AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。本发明能够结合对比学习获取更忠于原文内容的摘要结果;通过结合外部知识,提升预训练模型在新闻文本上的语义表示能力;通过先抽取后生成的摘要方式,使模型充分关注新闻文本中的关键内容,有效提升了模型的可解释性和摘要结果的连续性、可读性。
-
公开(公告)号:CN113468874B
公开(公告)日:2024-04-16
申请号:CN202110643976.0
申请日:2021-06-09
Applicant: 大连理工大学
IPC: G06F40/279 , G06F40/30 , G06N3/049 , G06N3/08 , G06N3/0464
Abstract: 一种基于图卷积自编码的生物医学关系抽取方法,为了充分利用依赖关系,有效捕获语义结构,并降低计算成本,包括卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度与输入矩阵相同的邻接矩阵;将从获得单词的隐层状态表示和重构的邻接矩阵输入到N个单独图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中长距离依赖特征;将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点输出向量后进行关系分类,实验结果证明,本模型可以更有效地捕获依赖信息,获取语义结构。
-
公开(公告)号:CN110534192B
公开(公告)日:2023-12-26
申请号:CN201910673218.6
申请日:2019-07-24
Applicant: 大连理工大学 , 大连医科大学附属第二医院
IPC: G16H50/20 , G16H10/60 , G06F16/35 , G06F16/33 , G06F40/279 , G06F18/24 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种肺结节良恶性识别方法,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性。
-
公开(公告)号:CN114969342A
公开(公告)日:2022-08-30
申请号:CN202210623478.4
申请日:2022-06-02
Applicant: 大连理工大学
Abstract: 本发明提出了基于风格表示与多任务学习的文本多风格迁移方法,包括以下步骤:(1)构建多语料文本图网络,(2)使用图网络技术与图嵌入算法获取图节点表示,(3)使用标签嵌入技术获取文本风格表示,(4)使用Transformer构建编码器获取融合文本风格信息的句子表示,(5)使用Transformer构建解码器对目标文本进行风格迁移,(6)使用多任务学习方法中的参数硬共享方法,构建文本多风格迁移模型。本发明使用图神经网络与标签嵌入技术获取了效果更优的文本风格表示;基于Transformer与风格表示相结合构建文本风格迁移模型,获得了更优的文本风格迁移效果;使用多任务技术构建文本多风格迁移模型,降低了不同风格之间的影响,获得了更优的文本多风格迁移效果。
-
公开(公告)号:CN108959364B
公开(公告)日:2022-02-22
申请号:CN201810486091.2
申请日:2018-05-21
Applicant: 大连理工大学
IPC: G06F16/35 , G06F16/335 , G06F16/338 , G06F16/33 , G06Q50/00
Abstract: 一种社交媒体事件级新闻中新闻媒体影响力评估方法,属于数据挖掘和复杂网络技术领域,用于解决评估新闻媒体影响力的问题,技术要点是包括R1、采集社交媒体数据,构建事件语料库;R2、统计语料库中各用户的相关数据;R3、构建转发网络;R4、构建评价模型评估新闻媒体影响力;R5、以国家为单位,对影响力进行可视化;本发明可以从事件层面出发,评估新闻媒体影响力,并以国家为单位对影响力进行展示。
-
公开(公告)号:CN108460013B
公开(公告)日:2021-08-20
申请号:CN201810120922.4
申请日:2018-01-30
Applicant: 大连理工大学
Abstract: 本发明提供了一种基于细粒度词表示模型的序列标注模型,用于进行序列标注任务,属于计算机应用及自然语言处理领域。本发明的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时,首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后由Finger与BiLSTM‑CRF模型共同完成序列标注任务,最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明本发明设计的Finger模型显著提升序列标注系统的召回率,从而使得模型的识别能力显著提升。
-
-
-
-
-
-
-
-
-