对齐分层和顺序文档树以标识并行数据

    公开(公告)号:CN101490666A

    公开(公告)日:2009-07-22

    申请号:CN200780026359.4

    申请日:2007-06-28

    Applicant: 微软公司

    Inventor: M·周 C·牛 L·施

    CPC classification number: G06F17/2827 G06F17/30014 G06F17/30882

    Abstract: 基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档,并导致对并行文档的递归挖掘。

    基于web的搭配错误证明

    公开(公告)号:CN101568918A

    公开(公告)日:2009-10-28

    申请号:CN200780044668.4

    申请日:2007-12-05

    Applicant: 微软公司

    CPC classification number: G06F17/3061 G06F17/273 G06F17/277 G06F17/2845

    Abstract: 可以使用本地和包括web在内的基于网络的语料库来自动地证明搭配错误。例如,根据一说明性实施例,来自文本样本的一个或多个搭配可以与诸如web的内容等语料库进行比较。搭配被标识为其在该语料库中是否是不被赞同的。经由输出设备来提供搭配在该语料库中是否不被赞同的指示。随后可以采取诸如搜索并经由用户输出提供可能适当的单词搭配的附加步骤。

    生成汉语横批
    4.
    发明公开

    公开(公告)号:CN101568917A

    公开(公告)日:2009-10-28

    申请号:CN200780047860.9

    申请日:2007-12-20

    Applicant: 微软公司

    Inventor: L·蒋 M·周 S·郝

    Abstract: 公开了用于在给定中文对联的上联句子和下联句子的情况下自动生成横批的实施例。该上联和/或下联句子可由自动计算机系统或由人类来生成(例如,手动生成并且然后提供为对自动化横批生成系统的输入)或者从任何源(例如,书籍)获取并提供为输入。在一个实施例中,利用信息检索过程来标识最佳匹配上联和下联句子的横批候选。在一个实施例中,自动生成候选横批。在一个实施例中,应用排序模型以便对从横批搜索和生成过程中导出的横批候选进行排序。然后从经排序的横批候选中选择一个或多个横批。

    来源于单语和可用双语语料库的搭配翻译

    公开(公告)号:CN101194253A

    公开(公告)日:2008-06-04

    申请号:CN200680020698.7

    申请日:2006-06-14

    Applicant: 微软公司

    Abstract: 提供了用于提取搭配翻译的方法和系统。该方法包括使用单语源和目标语言语料库以及可用的双语语料库来构造一个搭配翻译模型。搭配翻译模型采用关于围绕搭配的上下文词语的期望最大化算法。该搭配翻译模型稍后可用于提取一个搭配翻译字典。基于上下文冗余和/或双向翻译约束的可任选过滤器可用于确保该字典中仅包含高度可靠的搭配翻译。所构造的搭配翻译模型和所提取的搭配翻译字典可稍后用于进一步的自然语言处理,诸如句子翻译。

    语言翻译方法及其系统

    公开(公告)号:CN1530861A

    公开(公告)日:2004-09-22

    申请号:CN200410031370.8

    申请日:2004-02-24

    Applicant: 微软公司

    Inventor: M·周 J·高

    Abstract: 公开了一种翻译业务,该业务通过从服务器有选择地下载信息被提供给无线移动设备。被下载的信息包括一种具有一个语言独立翻译引擎和至少一个语言从属翻译数据库的翻译架构。语言从属翻译数据库包括翻译模板和翻译字典。一个用于世界上的所选城市或多个城市的专用数据库也可以被下载。语言之间的翻译可以通过将语言从属数据库和任意的城市专用翻译数据库应用到翻译引擎而实现。翻译引擎执行一个用于简化翻译过程的用户术语项代替方案。

    对自然语言问题的基于学习的处理

    公开(公告)号:CN104471568A

    公开(公告)日:2015-03-25

    申请号:CN201380035865.5

    申请日:2013-07-02

    Applicant: 微软公司

    CPC classification number: G06F17/30654 G06F17/278 G06F17/30684

    Abstract: 所描述的技术使得能够使用基于机器学习的方法来收集和分析来自web搜索的证据来回答自然语言问题。接收到的自然语言问题被分析以提取查询单元并使用基于规则的探试和/或通过机器学习训练的分类器来确定问题类型、答案类型和/或词汇答案类型。查询生成模板被用于生成多个经排序的查询,这多个经排序的查询被用于收集证据来确定对于自然语言问题的答案。基于暗暗类型和/或词汇答案类型来从结果中提取候选答案,并使用先前被离线训练的排序器对候选答案进行排序。计算候选答案的置信度水平,并且如果排名第一(前几)的回答的置信度水平超过阈值,则该排名第一(前几)的回答可被提供给用户。

    来源于单语和可用双语语料库的搭配翻译

    公开(公告)号:CN101194253B

    公开(公告)日:2012-08-29

    申请号:CN200680020698.7

    申请日:2006-06-14

    Applicant: 微软公司

    Abstract: 提供了用于提取搭配翻译的方法和系统。该方法包括使用单语源和目标语言语料库以及可用的双语语料库来构造一个搭配翻译模型。搭配翻译模型采用关于围绕搭配的上下文词语的期望最大化算法。该搭配翻译模型稍后可用于提取一个搭配翻译字典。基于上下文冗余和/或双向翻译约束的可任选过滤器可用于确保该字典中仅包含高度可靠的搭配翻译。所构造的搭配翻译模型和所提取的搭配翻译字典可稍后用于进一步的自然语言处理,诸如句子翻译。

    语言翻译方法及其系统

    公开(公告)号:CN1530861B

    公开(公告)日:2010-05-26

    申请号:CN200410031370.8

    申请日:2004-02-24

    Applicant: 微软公司

    Inventor: M·周 J·高

    Abstract: 公开了一种翻译业务,该业务通过从服务器有选择地下载信息被提供给无线移动设备。被下载的信息包括一种具有一个语言独立翻译引擎和至少一个语言从属翻译数据库的翻译架构。语言从属翻译数据库包括翻译模板和翻译字典。一个用于世界上的所选城市或多个城市的专用数据库也可以被下载。语言之间的翻译可以通过将语言从属数据库和任意的城市专用翻译数据库应用到翻译引擎而实现。翻译引擎执行一个用于简化翻译过程的用户术语项代替方案。

Patent Agency Ranking