翻译一致性的方法和装置及统计机器翻译方法和系统

    公开(公告)号:CN104298663B

    公开(公告)日:2017-01-18

    申请号:CN201410520322.9

    申请日:2014-09-30

    Abstract: 本发明提供一种评价术语领域翻译一致性的方法,该方法以双语平行语料库的文档-主题分布信息作为术语翻译的领域信息,构建双语术语库,并计算每个源语言术语的翻译一致性强度来客观地评价在领域内术语翻译的一致性。该方法充分利用领域信息,在术语翻译中保持源语言术语的译文在相同或相近领域内一致。而且该方法可以嵌入到统计机器翻译中,改进源语言术语所在的句子、篇章文档的整体翻译质量。

    评价术语领域翻译一致性的方法及统计机器翻译方法

    公开(公告)号:CN104298663A

    公开(公告)日:2015-01-21

    申请号:CN201410520322.9

    申请日:2014-09-30

    Abstract: 本发明提供一种评价术语领域翻译一致性的方法,该方法以双语平行语料库的文档-主题分布信息作为术语翻译的领域信息,构建双语术语库,并计算每个源语言术语的翻译一致性强度来客观地评价在领域内术语翻译的一致性。该方法充分利用领域信息,在术语翻译中保持源语言术语的译文在相同或相近领域内一致。而且该方法可以嵌入到统计机器翻译中,改进源语言术语所在的句子、篇章文档的整体翻译质量。

    基于依存树的统计机器翻译方法及系统

    公开(公告)号:CN104239290A

    公开(公告)日:2014-12-24

    申请号:CN201410389422.2

    申请日:2014-08-08

    Abstract: 本发明提供一种基于依存边转换的统计机器翻译方法,根据从双语语料库中抽取的转换规则,将源语言句子的依存树中每条依存边转换为对应的目标语言短语依存边,并对所得到的目标语言短语依存边进行拼接,以生成目标语言端译文。该方法结合依存句法模型的优势,但采用分析-转换-生成的模式将翻译过程拆解成了三个阶段,可以对三个过程分别独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。该采用基于依存边的转换保留了更多的知识,可以容忍更高程度的句法非同构现象,而且取得超过当前主流的基于短语模型翻译的方法的性能。

    统计机器翻译短语抽取方法

    公开(公告)号:CN101989261B

    公开(公告)日:2013-03-13

    申请号:CN200910164809.7

    申请日:2009-08-01

    Abstract: 本发明提供一种统计机器翻译短语抽取方法,包括下列步骤:1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;3)根据所述对齐矩阵,计算短语对齐的频度;4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。本发明能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量,进而能够提高根据所抽取的短语进行翻译的质量。

    用于计算机辅助翻译的候选短语查询方法及辅助翻译系统

    公开(公告)号:CN102693309A

    公开(公告)日:2012-09-26

    申请号:CN201210166934.3

    申请日:2012-05-25

    Abstract: 本发明提供了计算机辅助翻译的方法及系统,在机器翻译结果的基础上,利用机器翻译中的中间信息、用户记忆库、词典等其他方面的辅助翻译信息来修改和完善机器自动翻译的结果。其中,采用基于AC自动机的候选短语查询方法,在线性复杂度之内解决了候选短语的查询问题,大大提高了辅助翻译的效率;采用基于卡尔曼滤波的候选短语排序方法解决了不同集合的短语之间的排序问题,通过用户翻译历史记录的分析,不断优化各候选短语集合的权重,从而提高候选短语推荐的精准度。

    一种面向形态丰富语言的翻译方法和系统

    公开(公告)号:CN102681985A

    公开(公告)日:2012-09-19

    申请号:CN201210152487.6

    申请日:2012-05-16

    Abstract: 一种面向形态丰富语言的翻译方法和系统,所述方法包括:步骤1,对形态丰富语言进行形态分析,获得词干和词缀信息;步骤2,在抽取翻译规则时,以词干作为原子翻译单元,并保留相应的词缀分布信息;步骤3,在翻译时,对于待翻译的片段,获取其词干、词缀分布;词干序列用来查询规则表,词缀分布信息和规则候选的词缀分布计算相似度,表征两者的相似程度,指导解码,所述词干序列是由多个词干组成的序列。

    统计机器解码特征权重的训练方法和解码方法

    公开(公告)号:CN101989260B

    公开(公告)日:2012-08-22

    申请号:CN200910164808.2

    申请日:2009-08-01

    Abstract: 本发明提供一种统计机器解码方法,包括下列步骤:1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所获得的多个最优译文中选择最终译文。根据上述方法进行统计机器解码,缓解了单解码器和系统融合的局限性,并且提高了译文翻译的准确性。

    一种基于依存句法树的翻译规则抽取方法和翻译方法

    公开(公告)号:CN102243626A

    公开(公告)日:2011-11-16

    申请号:CN201110207750.2

    申请日:2011-07-22

    Inventor: 米海涛 刘群

    Abstract: 本发明提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。

    一种数字视频字幕自动翻译方法

    公开(公告)号:CN100469109C

    公开(公告)日:2009-03-11

    申请号:CN200610087132.8

    申请日:2006-06-13

    Abstract: 本发明公开了一种数字视频字幕自动翻译方法,用于将字幕内容翻译成另一种语言,包括:提取用源语言表示的字幕内容,并转换为文本格式;进行语种判别;选择从源语言到目标语言的翻译短语表;根据目标语言的语种类别,提取目标语言的语言模型;将字幕中的语句划分成短语,查找短语在目标语言中的含义;将翻译后的短语按顺序连接,并计算翻译结果的分数;选择分数最高的翻译结果作为字幕中的语句在目标语言中的含义;将翻译后的字幕内容重新转换为传输流接受的格式并输出。本发明对每个短语保留所有可能的翻译结果,用翻译概率来表示谁的可能性更大,提高了翻译的准确率;对语句作短语切分时考虑所有可能的匹配上的短语切分,使得翻译结果更为全面。

    一种广告检测识别方法及系统

    公开(公告)号:CN101221622A

    公开(公告)日:2008-07-16

    申请号:CN200810057162.3

    申请日:2008-01-30

    Abstract: 本发明提供一种广告检测识别方法,包括:对待检测的广播电视节目数据进行预处理,得到所述数据音频流的短时能量包络;根据音频的短时能量特征,将所得到的短时能量包络切分为能量包络单元,得到待检测的广播电视节目数据的能量包络单元图;利用跳单元的策略和基于能量包络单元的相似性度量方法,对所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识别。本发明以音频特征取代视频特征、音视频特征结合等进行广告检测,具有计算复杂度低,检测效率高的优点;通过将待测数据与已知广告的音频特征进行比较,可以实现对特定广告的识别;本发明还具有应用范围广的优点。

Patent Agency Ranking