用于从电子文档提取信息的方法和系统

    公开(公告)号:CN103294764A

    公开(公告)日:2013-09-11

    申请号:CN201310059415.1

    申请日:2013-02-26

    CPC classification number: G06F19/3443 G06F19/00 G16H50/70

    Abstract: 本发明涉及一种用于从电子文档提取信息的方法和系统。所述方法包括:从训练语料库学习术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;生成在所述训练语料库中找到的否定指示符的列表;在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。

    用于从电子文档提取信息的方法和系统

    公开(公告)号:CN103294764B

    公开(公告)日:2016-11-16

    申请号:CN201310059415.1

    申请日:2013-02-26

    CPC classification number: G06F19/3443 G06F19/00 G16H50/70

    Abstract: 本发明涉及一种用于从电子文档提取信息的方法和系统。所述方法包括:从训练语料库学习术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;生成在所述训练语料库中找到的否定指示符的列表;在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。

Patent Agency Ranking