-
公开(公告)号:CN109213995A
公开(公告)日:2019-01-15
申请号:CN201810869704.0
申请日:2018-08-02
Applicant: 哈尔滨工程大学
IPC: G06F17/27
Abstract: 本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
-
公开(公告)号:CN112287666B
公开(公告)日:2023-07-25
申请号:CN202011124613.8
申请日:2020-10-20
Applicant: 哈尔滨工程大学
IPC: G06F40/216 , G06F17/16
Abstract: 本发明属于主题建模技术领域,具体涉及一种基于元信息的语料库主题分布计算方法。本发明设计了文档和词汇元信息的TWLLDA主题模型,克服了现有技术中模型结构复杂、非共轭、信息获取渠道单一等缺点。本发明将元信息转化为文档和单词的标签信息,标签信息独立于模型本身使得具有相似标签的文档具有相似的狄利克雷先验向量,相似标签的单词在主题上也有相似的分布权重;本发明提出有效的闭合的吉布斯采样方法,完成TWLLDA的推理;以困惑度和主题一致性为评价指标进行多组实验。实验表明相比于LDA等模型,基于元信息的TWLLDA模型在相同条件下表现得更为优秀。
-
公开(公告)号:CN112287666A
公开(公告)日:2021-01-29
申请号:CN202011124613.8
申请日:2020-10-20
Applicant: 哈尔滨工程大学
IPC: G06F40/216 , G06F17/16
Abstract: 本发明属于主题建模技术领域,具体涉及一种基于元信息的语料库主题分布计算方法。本发明设计了文档和词汇元信息的TWLLDA主题模型,克服了现有技术中模型结构复杂、非共轭、信息获取渠道单一等缺点。本发明将元信息转化为文档和单词的标签信息,标签信息独立于模型本身使得具有相似标签的文档具有相似的狄利克雷先验向量,相似标签的单词在主题上也有相似的分布权重;本发明提出有效的闭合的吉布斯采样方法,完成TWLLDA的推理;以困惑度和主题一致性为评价指标进行多组实验。实验表明相比于LDA等模型,基于元信息的TWLLDA模型在相同条件下表现得更为优秀。
-
公开(公告)号:CN109213995B
公开(公告)日:2022-11-18
申请号:CN201810869704.0
申请日:2018-08-02
Applicant: 哈尔滨工程大学
IPC: G06F40/30 , G06F40/279 , G06F40/289
Abstract: 本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip‑Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
-
-
-