-
公开(公告)号:CN103473223B
公开(公告)日:2017-05-03
申请号:CN201310450616.4
申请日:2013-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于句法树的规则抽取方法,包括:1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;2)遍历步骤1)标记好的源语言依存句法树,抽取中心‑修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心‑修饰片段,得到含成分短语节点的中心‑修饰片段;3)依据所抽取的含成分短语节点的中心‑修饰片段,生成含成分短语的中心‑修饰规则。本发明具有较强的长距离翻译调序能力和较好的短语兼容性。
-
公开(公告)号:CN103577398B
公开(公告)日:2016-05-25
申请号:CN201310487641.X
申请日:2013-10-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
-
公开(公告)号:CN102760121B
公开(公告)日:2014-08-06
申请号:CN201210222936.X
申请日:2012-06-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。
-
公开(公告)号:CN102693309B
公开(公告)日:2014-08-06
申请号:CN201210166934.3
申请日:2012-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了计算机辅助翻译的方法及系统,在机器翻译结果的基础上,利用机器翻译中的中间信息、用户记忆库、词典等其他方面的辅助翻译信息来修改和完善机器自动翻译的结果。其中,采用基于AC自动机的候选短语查询方法,在线性复杂度之内解决了候选短语的查询问题,大大提高了辅助翻译的效率;采用基于卡尔曼滤波的候选短语排序方法解决了不同集合的短语之间的排序问题,通过用户翻译历史记录的分析,不断优化各候选短语集合的权重,从而提高候选短语推荐的精准度。
-
公开(公告)号:CN103473223A
公开(公告)日:2013-12-25
申请号:CN201310450616.4
申请日:2013-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于句法树的规则抽取方法,包括:1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;2)遍历步骤1)标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心-修饰片段,得到含成分短语节点的中心-修饰片段;3)依据所抽取的含成分短语节点的中心-修饰片段,生成含成分短语的中心-修饰规则。本发明具有较强的长距离翻译调序能力和较好的短语兼容性。
-
公开(公告)号:CN102760121A
公开(公告)日:2012-10-31
申请号:CN201210222936.X
申请日:2012-06-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。
-
公开(公告)号:CN100555276C
公开(公告)日:2009-10-28
申请号:CN200410000651.7
申请日:2004-01-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。
-
公开(公告)号:CN101200252A
公开(公告)日:2008-06-18
申请号:CN200710179079.9
申请日:2007-12-10
Applicant: 中国科学院计算技术研究所
IPC: B66B1/06
Abstract: 本发明公开了一种目标场所优化调度方法及系统。该方法包括下列步骤:采集目标场所相应目标对应的正例样本集合和反例样本集合;在正例样本集合和反例样本集合中,提取图像特征并进行训练,得到用于目标场所目标检测的分类器;从获取的目标场所的实时视频图像中,利用分类器检测出目标,对目标场所进行优化调度。将从目标场所获取的实时视频图像检测出的目标所在区域作为正例样本,重复训练,进一步提高分类器的分类精确度。其对目标场所进行优化调度,提高目标场所的工作效率。
-
公开(公告)号:CN104281564B
公开(公告)日:2017-08-08
申请号:CN201410394850.4
申请日:2014-08-12
Applicant: 中国科学院计算技术研究所 , 橙译中科信息技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种双语无监督句法分析方法及系统,该方法包括以下步骤:步骤1,在双语语料源端和目标端分别建立随机句法分析树库;步骤2,在该随机句法分析树库上通过计算单语无监督句法分析树的概率来单独训练单语无监督句法分析模型;步骤3,通过计算松弛同构相似度和双语句法分析算法对该单语无监督句法分析模型进行双语句法分析,得到最为满足松弛同构双语句法分析目标的双语句法分析树库,并用以替换该随机句法分析树库;步骤4,重复上述步骤1‑步骤3,直至该单语无监督句法分析模型收敛。由此,获得更好的单语无监督句法分析模型,以用于所有需要句法分析的下游应用中。
-
公开(公告)号:CN102945231B
公开(公告)日:2015-03-11
申请号:CN201210401238.6
申请日:2012-10-19
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括:步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。
-
-
-
-
-
-
-
-
-