-
公开(公告)号:CN109117483B
公开(公告)日:2020-05-19
申请号:CN201810845896.1
申请日:2018-07-27
Applicant: 清华大学
Inventor: 孙茂松 , 米尔阿迪力江·麦麦提 , 刘洋 , 栾焕博
IPC: G06F40/58 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型。本发明有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。
-
公开(公告)号:CN110765791A
公开(公告)日:2020-02-07
申请号:CN201911060848.2
申请日:2019-11-01
Applicant: 清华大学
IPC: G06F40/58 , G06F40/44 , G06F40/279
Abstract: 本发明实施例提供一种机器翻译自动后编辑方法及装置,方法包括:获取目标源语言句子和目标机器翻译草稿;将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果,准确性较高。
-
公开(公告)号:CN106897254B
公开(公告)日:2020-01-21
申请号:CN201510958761.2
申请日:2015-12-18
Applicant: 清华大学
Abstract: 本发明提供了一种网络表示学习方法,本发明综合考虑文本信息以及网络结构进行学习,并针对文本信息部分,设计了不同类型的基于连续词袋以及基于卷积神经网络的文本编码模型,本发明不仅利用了网络中节点的网络结构信息,对当前节点的邻居节点进行预测,也利用了节点的文本信息,对当前节点文本信息的表示向量进行了预测,本发明的方法,能够有效的将节点的文本信息以及网络结构信息编码到表示向量中,同时在节点分类的任务上显著的提高了分类准确率。同时本方法充分考虑了实际网络中的有效信息,例如文本信息,在不同类型的信息网络数据上都取得了优异的效果,具有良好的实用性。
-
公开(公告)号:CN106897254A
公开(公告)日:2017-06-27
申请号:CN201510958761.2
申请日:2015-12-18
Applicant: 清华大学
IPC: G06F17/22
Abstract: 本发明提供了一种网络表示学习方法,本发明综合考虑文本信息以及网络结构进行学习,并针对文本信息部分,设计了不同类型的基于连续词袋以及基于卷积神经网络的文本编码模型,本发明不仅利用了网络中节点的网络结构信息,对当前节点的邻居节点进行预测,也利用了节点的文本信息,对当前节点文本信息的表示向量进行了预测,本发明的方法,能够有效的将节点的文本信息以及网络结构信息编码到表示向量中,同时在节点分类的任务上显著的提高了分类准确率。同时本方法充分考虑了实际网络中的有效信息,例如文本信息,在不同类型的信息网络数据上都取得了优异的效果,具有良好的实用性。
-
公开(公告)号:CN106354710A
公开(公告)日:2017-01-25
申请号:CN201610685532.2
申请日:2016-08-18
Applicant: 清华大学
CPC classification number: G06F17/278 , G06N3/0454 , G06N3/08
Abstract: 本发明公开了一种神经网络关系抽取方法,基于句子级别选择注意力机制的神经网络关系抽取方法,具体为:对每个句子和其相关的一对实体,采用卷积神经网络构建所述一对实体的句子向量表示;采用设置的句子级别注意力机制选择其中的表达了所述一对实体间的关系的句子向量表示,得到所述一对实体的综合句子向量表示;根据所述一对实体的综合句子向量表示进行所述一对实体间的关系预测。这样,本发明实施例不但可以在神经网络关系抽取中降低远程监督数据中噪音的干扰,还可以同时考虑不同句子的信息,提高模型的稳定性,具有良好的实用性。
-
公开(公告)号:CN109446534B
公开(公告)日:2020-07-31
申请号:CN201811109824.7
申请日:2018-09-21
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。
-
公开(公告)号:CN110309516A
公开(公告)日:2019-10-08
申请号:CN201910463549.7
申请日:2019-05-30
Applicant: 清华大学
IPC: G06F17/28
Abstract: 本发明实施例提供一种机器翻译模型的训练方法、装置与电子设备,其中所述方法包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。本发明实施例能够在存在噪声干扰的情况下,依然精准的训练翻译模型,保证翻译模型的精确性。
-
公开(公告)号:CN108874785A
公开(公告)日:2018-11-23
申请号:CN201810555273.0
申请日:2018-06-01
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。
-
公开(公告)号:CN113673259B
公开(公告)日:2024-09-17
申请号:CN202110857215.5
申请日:2021-07-28
Applicant: 清华大学
Inventor: 刘洋 , 米尔阿迪力江·麦麦提 , 栾焕博 , 孙茂松
Abstract: 本发明提供一种基于数据增强的低资源神经机器翻译方法及系统,其中方法包括:确定待翻译的真实数据;将所述待翻译的真实数据输入至神经机器翻译模型,得到所述神经机器翻译模型输出的神经机器翻译结果;其中,所述神经机器翻译模型是基于包括低资源语言对上的平行语料和单语语料在内的原始真实数据进行数据增强后对低资源神经机器翻译模型训练后得到的。本发明实施例实现了将稀疏数据应用到低资源神经机器翻译的神经机器翻译模型,能够高效、准确地解决低资源神经机器翻译中的资源匮乏问题。
-
公开(公告)号:CN110765791B
公开(公告)日:2021-04-06
申请号:CN201911060848.2
申请日:2019-11-01
Applicant: 清华大学
IPC: G06F40/58 , G06F40/44 , G06F40/279
Abstract: 本发明实施例提供一种机器翻译自动后编辑方法及装置,方法包括:获取目标源语言句子和目标机器翻译草稿;将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果,准确性较高。
-
-
-
-
-
-
-
-
-