-
公开(公告)号:CN108874785B
公开(公告)日:2020-11-03
申请号:CN201810555273.0
申请日:2018-06-01
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F40/44 , G06F40/58 , G06F40/279
Abstract: 本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。
-
公开(公告)号:CN111652004A
公开(公告)日:2020-09-11
申请号:CN202010388547.9
申请日:2020-05-09
Applicant: 清华大学
IPC: G06F40/58 , G06K9/62 , G06F30/27 , G06F111/08
Abstract: 本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。
-
公开(公告)号:CN106886543B
公开(公告)日:2020-01-17
申请号:CN201510947068.5
申请日:2015-12-16
Applicant: 清华大学
IPC: G06F16/28
Abstract: 本发明提供了一种结合实体描述的知识图谱表示学习方法和系统,本发明中,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。
-
公开(公告)号:CN107038159B
公开(公告)日:2019-07-12
申请号:CN201710139214.0
申请日:2017-03-09
Applicant: 清华大学
Inventor: 米尔阿迪力江·麦麦提 , 刘洋 , 栾焕博 , 孙茂松
Abstract: 本发明提供一种基于无监督领域自适应的神经网络机器翻译方法,包括:将双语语料训练样本中源端句最后一个词和第一个词的向量表示作为Softmax分类器和翻译模块的输入进行训练;根据Softmax分类器生成的领域数目,生成翻译网络解码器的数目,基于目标端的解码器生成目标端以及所对应的领域。本发明克服了现有技术中缺乏已标注领域数据的问题,节省时间和成本,能够高效准确地完成翻译和领域之间的自适应,具有较好的实用性,具备良好的适用范围以及可扩展性。
-
公开(公告)号:CN107273363A
公开(公告)日:2017-10-20
申请号:CN201710335652.4
申请日:2017-05-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/28
Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。
-
公开(公告)号:CN106886543A
公开(公告)日:2017-06-23
申请号:CN201510947068.5
申请日:2015-12-16
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供了一种结合实体描述的知识图谱表示学习方法和系统,本发明中,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。
-
公开(公告)号:CN107741943B
公开(公告)日:2020-07-17
申请号:CN201710429483.0
申请日:2017-06-08
Applicant: 清华大学
Abstract: 本发明公开一种结合实体图像的知识表示学习方法及服务器。其中,所述方法包括:根据获取到的实体图像,获得每个与实体对应的实体图像在知识空间上的表示;根据各个所述与实体对应的实体图像在知识空间上的表示以及所述实体基于结构的表示,构建所述实体基于图像的表示;根据知识图谱的三元组以及预设的训练模型,联合训练所述实体基于图像的表示和所述实体基于结构的表示,获得所述实体的知识表示。本发明提供的结合实体图像的知识表示学习方法及服务器,能够将实体图像信息应用到知识表示学习中,提高了知识表示学习的准确性。
-
公开(公告)号:CN107315741B
公开(公告)日:2019-11-22
申请号:CN201710374136.2
申请日:2017-05-24
Applicant: 清华大学
Abstract: 本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。
-
公开(公告)号:CN107273363B
公开(公告)日:2019-11-22
申请号:CN201710335652.4
申请日:2017-05-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/28
Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。
-
公开(公告)号:CN109117483A
公开(公告)日:2019-01-01
申请号:CN201810845896.1
申请日:2018-07-27
Applicant: 清华大学
Inventor: 孙茂松 , 米尔阿迪力江·麦麦提 , 刘洋 , 栾焕博
Abstract: 本发明提供一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型。本发明有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。
-
-
-
-
-
-
-
-
-