平行句对的筛选方法和系统

    公开(公告)号:CN105512114B

    公开(公告)日:2018-06-15

    申请号:CN201510927066.X

    申请日:2015-12-14

    Applicant: 清华大学

    Abstract: 本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

    一种结合实体图像的知识表示学习方法及服务器

    公开(公告)号:CN107741943A

    公开(公告)日:2018-02-27

    申请号:CN201710429483.0

    申请日:2017-06-08

    Applicant: 清华大学

    Abstract: 本发明公开一种结合实体图像的知识表示学习方法及服务器。其中,所述方法包括:根据获取到的实体图像,获得每个与实体对应的实体图像在知识空间上的表示;根据各个所述与实体对应的实体图像在知识空间上的表示以及所述实体基于结构的表示,构建所述实体基于图像的表示;根据知识图谱的三元组以及预设的训练模型,联合训练所述实体基于图像的表示和所述实体基于结构的表示,获得所述实体的知识表示。本发明提供的结合实体图像的知识表示学习方法及服务器,能够将实体图像信息应用到知识表示学习中,提高了知识表示学习的准确性。

    一种双向词语对齐方法及装置

    公开(公告)号:CN105630776A

    公开(公告)日:2016-06-01

    申请号:CN201510998012.2

    申请日:2015-12-25

    Applicant: 清华大学

    CPC classification number: G06F17/2827 G06F17/289

    Abstract: 本发明涉及一种双向词语对齐方法及装置,其中,方法包括构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;利用一致性评估函数,融合两个方向的词语对齐模型,构建初始目标函数;利用一致性评估函数,对两个方向的词语对齐模型进行联合训练,形成优化目标函数;利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。系统包括词语对齐模型构建模块、目标函数构建模块、联合训练模块、词语对齐分析模块。通过本发明提供方法及装置,由于引入了一致性评估函数,能对两个方向的词语对齐模型进行联合训练,使两个方向的词语对齐模型相互纠错,极大的降低了词语对齐的错误率。

    平行句对的筛选方法和系统

    公开(公告)号:CN105512114A

    公开(公告)日:2016-04-20

    申请号:CN201510927066.X

    申请日:2015-12-14

    Applicant: 清华大学

    CPC classification number: G06F17/289

    Abstract: 本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

    一种用于机器翻译系统的融合方法及装置

    公开(公告)号:CN111652004B

    公开(公告)日:2022-07-05

    申请号:CN202010388547.9

    申请日:2020-05-09

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。

    基于数据增强的低资源神经机器翻译方法及系统

    公开(公告)号:CN113673259A

    公开(公告)日:2021-11-19

    申请号:CN202110857215.5

    申请日:2021-07-28

    Applicant: 清华大学

    Abstract: 本发明提供一种基于数据增强的低资源神经机器翻译方法及系统,其中方法包括:确定待翻译的真实数据;将所述待翻译的真实数据输入至神经机器翻译模型,得到所述神经机器翻译模型输出的神经机器翻译结果;其中,所述神经机器翻译模型是基于包括低资源语言对上的平行语料和单语语料在内的原始真实数据进行数据增强后对低资源神经机器翻译模型训练后得到的。本发明实施例实现了将稀疏数据应用到低资源神经机器翻译的神经机器翻译模型,能够高效、准确地解决低资源神经机器翻译中的资源匮乏问题。

    基于隐变量模型的故事生成方法及装置

    公开(公告)号:CN110287999B

    公开(公告)日:2021-05-28

    申请号:CN201910450203.3

    申请日:2019-05-28

    Applicant: 清华大学

    Abstract: 本发明提供一种基于隐变量模型的故事生成方法及装置,方法包括:基于训练好的隐变量模型中的规划模型,根据故事的标题生成所述故事的大纲;其中,所述隐变量模型中的隐变量为所述大纲;基于所述训练好的隐变量模型中的生成模型,根据所述大纲和所述标题生成所述故事。本发明一方面利用故事大纲作为辅助指导信息使得生成的故事更加通顺、扣题,能够缩小故事生成中标题与故事之间的信息差,降低故事生成难度;另一方面,将故事大纲建模为隐变量,不限定其形式,使其能够蕴含更多的信息,并且隐变量是完全可学习的,具有很强的学习能力;此外还可以扩展成其他形式的文本生成,具有很好的实用性和通用性。

    机器翻译模型的训练方法、装置与电子设备

    公开(公告)号:CN110309516B

    公开(公告)日:2020-11-24

    申请号:CN201910463549.7

    申请日:2019-05-30

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种机器翻译模型的训练方法、装置与电子设备,其中所述方法包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。本发明实施例能够在存在噪声干扰的情况下,依然精准的训练翻译模型,保证翻译模型的精确性。

    一种结构化文本翻译方法及装置

    公开(公告)号:CN110232193B

    公开(公告)日:2020-08-28

    申请号:CN201910349677.9

    申请日:2019-04-28

    Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。

    基于隐变量模型的故事生成方法及装置

    公开(公告)号:CN110287999A

    公开(公告)日:2019-09-27

    申请号:CN201910450203.3

    申请日:2019-05-28

    Applicant: 清华大学

    Abstract: 本发明提供一种基于隐变量模型的故事生成方法及装置,方法包括:基于训练好的隐变量模型中的规划模型,根据故事的标题生成所述故事的大纲;其中,所述隐变量模型中的隐变量为所述大纲;基于所述训练好的隐变量模型中的生成模型,根据所述大纲和所述标题生成所述故事。本发明一方面利用故事大纲作为辅助指导信息使得生成的故事更加通顺、扣题,能够缩小故事生成中标题与故事之间的信息差,降低故事生成难度;另一方面,将故事大纲建模为隐变量,不限定其形式,使其能够蕴含更多的信息,并且隐变量是完全可学习的,具有很强的学习能力;此外还可以扩展成其他形式的文本生成,具有很好的实用性和通用性。

Patent Agency Ranking