一种双语无监督句法分析方法及系统

    公开(公告)号:CN104281564A

    公开(公告)日:2015-01-14

    申请号:CN201410394850.4

    申请日:2014-08-12

    Inventor: 刘凯 姜文斌 刘群

    Abstract: 本发明公开了一种双语无监督句法分析方法及系统,该方法包括以下步骤:步骤1,在双语语料源端和目标端分别建立随机句法分析树库;步骤2,在该随机句法分析树库上通过计算单语无监督句法分析树的概率来单独训练单语无监督句法分析模型;步骤3,通过计算松弛同构相似度和双语句法分析算法对该单语无监督句法分析模型进行双语句法分析,得到最为满足松弛同构双语句法分析目标的双语句法分析树库,并用以替换该随机句法分析树库;步骤4,重复上述步骤1-步骤3,直至该单语无监督句法分析模型收敛。由此,获得更好的单语无监督句法分析模型,以用于所有需要句法分析的下游应用中。

    一种基于依存句法树的翻译规则抽取方法和翻译方法

    公开(公告)号:CN102799578B

    公开(公告)日:2014-11-05

    申请号:CN201210227973.X

    申请日:2012-07-02

    Inventor: 谢军 米海涛 刘群

    Abstract: 本发明提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。

    一种面向增量式翻译的结构化语言模型构建方法及系统

    公开(公告)号:CN102945231A

    公开(公告)日:2013-02-27

    申请号:CN201210401238.6

    申请日:2012-10-19

    Inventor: 于恒 米海涛 刘群

    Abstract: 本发明公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括:步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。

    计算机辅助翻译的方法及系统

    公开(公告)号:CN102193914A

    公开(公告)日:2011-09-21

    申请号:CN201110139182.7

    申请日:2011-05-26

    Abstract: 本发明提供一种计算机辅助翻译的方法及系统,在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等其他方面的信息来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供了更灵活的交互方式。这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。

    统计机器翻译短语抽取方法

    公开(公告)号:CN101989261A

    公开(公告)日:2011-03-23

    申请号:CN200910164809.7

    申请日:2009-08-01

    Abstract: 本发明提供一种统计机器翻译短语抽取方法,包括下列步骤:1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;3)根据所述对齐矩阵,计算短语对齐的频度;4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。本发明能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量,进而能够提高根据所抽取的短语进行翻译的质量。

    一种机器翻译方法
    36.
    发明授权

    公开(公告)号:CN101398815B

    公开(公告)日:2011-02-16

    申请号:CN200810114949.9

    申请日:2008-06-13

    Inventor: 米海涛 黄亮 刘群

    Abstract: 本发明提供一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。

    一种融合了句型模板和统计机器翻译技术的翻译方法

    公开(公告)号:CN100543727C

    公开(公告)日:2009-09-23

    申请号:CN200610165532.6

    申请日:2006-12-21

    Abstract: 本发明公开了一种融合了句型模板和统计机器翻译技术的翻译方法,该方法包括:A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。利用本发明,解决了统计机器翻译系统不能很好的翻译具有固定句型结构句子的问题,使对具有固定句型结构的句子的翻译更加流畅。

    一种机器翻译方法
    38.
    发明公开

    公开(公告)号:CN101398815A

    公开(公告)日:2009-04-01

    申请号:CN200810114949.9

    申请日:2008-06-13

    Inventor: 米海涛 黄亮 刘群

    Abstract: 本发明提供一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。

    一种音频匹配方法及系统
    39.
    发明公开

    公开(公告)号:CN101221760A

    公开(公告)日:2008-07-16

    申请号:CN200810057161.9

    申请日:2008-01-30

    CPC classification number: G06F17/30758 G06F17/30743 G10L25/48

    Abstract: 本发明提供一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示;将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;采用相似性度量函数对匹配点以及对应的音频样例进行计算,得到两者的相似值;将相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。

    一种中文新词语的检测方法及其检测系统

    公开(公告)号:CN1641634A

    公开(公告)日:2005-07-20

    申请号:CN200410000651.7

    申请日:2004-01-15

    Inventor: 邹纲 刘群

    Abstract: 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。

Patent Agency Ranking