用于域特定的自然语言标准化的方法和系统

    公开(公告)号:CN103324604B

    公开(公告)日:2016-04-27

    申请号:CN201310072086.4

    申请日:2013-03-07

    CPC classification number: G06F17/28 G06F17/21 G06F17/2795

    Abstract: 本发明的实施例提供一种用于文本集的域特定标准化的方法、系统和计算机程序产品。在本发明的一个实施例中,提供了一种用于文本集的域特定标准化的方法,包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定用于所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后,所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中,通过基于已经存在于所述文本集中的词的推断而确定所述域。在本实施例的另一方面中,基于与所述文本集一起提供的元数据确定所述域。

    用于域特定的自然语言标准化的方法和系统

    公开(公告)号:CN103324604A

    公开(公告)日:2013-09-25

    申请号:CN201310072086.4

    申请日:2013-03-07

    CPC classification number: G06F17/28 G06F17/21 G06F17/2795

    Abstract: 本发明的实施例提供一种用于文本集的域特定标准化的方法、系统和计算机程序产品。在本发明的一个实施例中,提供了一种用于文本集的域特定标准化的方法,包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定用于所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后,所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中,通过基于已经存在于所述文本集中的词的推断而确定所述域。在本实施例的另一方面中,基于与所述文本集一起提供的元数据确定所述域。

Patent Agency Ranking