一种获取机构名称的方法及装置

    公开(公告)号:CN107357779A

    公开(公告)日:2017-11-17

    申请号:CN201710501226.3

    申请日:2017-06-27

    Abstract: 本发明公开了一种获取机构名称的方法及装置,属于信息提取及文本挖掘领域。所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的机构名称;根据后缀模型确定所述机构名称是否为实体机构的全称,所述后缀模型包括至少一个实体机构的后缀名称;在所述机构名称不是实体机构的全称时,获取位于所述机构名称之前满足预设条件的词语;将所述获取的词语和所述机构名称组成实体机构的全称。所述装置包括:标记模块、确定模块、获取模块和组成模块。本发明能够提高识别机构名称的准确性。

    一种获取机构名称的方法及装置

    公开(公告)号:CN107357779B

    公开(公告)日:2018-10-02

    申请号:CN201710501226.3

    申请日:2017-06-27

    Abstract: 本发明公开了一种获取机构名称的方法及装置,属于信息提取及文本挖掘领域。所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的机构名称;根据后缀模型确定所述机构名称是否为实体机构的全称,所述后缀模型包括至少一个实体机构的后缀名称;在所述机构名称不是实体机构的全称时,获取位于所述机构名称之前满足预设条件的词语;将所述获取的词语和所述机构名称组成实体机构的全称。所述装置包括:标记模块、确定模块、获取模块和组成模块。本发明能够提高识别机构名称的准确性。

    文本情感分析方法、装置及介质

    公开(公告)号:CN109522412A

    公开(公告)日:2019-03-26

    申请号:CN201811352096.2

    申请日:2018-11-14

    Abstract: 本发明实施例公开一种文本情感分析方法、装置及介质,该方法包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。采用上述技术方案中的文本情感分析方法,可以查找出更有针对性、极性更加准确的评价词,同时减少评价词与评价对象张冠李戴的情况,进而提升情感分析结果准确率。

    一种规范文书处理方法、装置及系统

    公开(公告)号:CN107590131A

    公开(公告)日:2018-01-16

    申请号:CN201710959524.7

    申请日:2017-10-16

    Abstract: 本发明实施例公开了一种规范文书处理方法、装置及系统。为了从规范文书中获取完整的文书要素,首先,从规范文书中获取文书身份,文书身份至少包含文书性质;然后,根据文书身份,选择与规范文书对应的目录树,目录书中至少包含一个目录节点,每个目录节点包含至少一个抽取表达式;然后,根据目录树,对规范文书进行切块处理,将规范文书切成至少一个内容区块,每个内容区块与目录树中的目录节点相对应,并根据目录节点的顺序,将切块处理后的规范文书以内容区块的形式显示,实现了对规范文书的结构化处理,使用户能够直观了解规范文书的内容结构;最后,根据预设提取规则,从内容区块中提取文书要素,从而实现从规范文书中获取完整的文书要素。

    业务文档的公式信息提取方法及装置

    公开(公告)号:CN108304383B

    公开(公告)日:2019-06-25

    申请号:CN201810085254.6

    申请日:2018-01-29

    Inventor: 任宁

    Abstract: 本发明实施例公开一种业务文档的公式信息提取方法及装置,该方法包括:获取第一序列,第一序列由业务文档生成,包括至少两个变量;获取第一标注序列,第一标注序列包括至少两个预设变量,第一标注序列对应第一标注表达式,第一标注表达式包括至少两个预设变量和至少两个预设变量之间的运算关系;如果第一序列与第一标注序列相匹配,则根据第一标注表达式及至少两个变量提取第一表达式,第一表达式包括至少两个变量和至少两个变量之间的运算关系,其中,至少两个变量之间的运算关系与第一标注表达式中的至少两个预设变量之间的运算关系相同。采用上述技术方案的提取方法可以有效提取出业务文档中的公式信息,尤其是隐含的用文本描述的公式信息。

    一种信息提取方法、装置及服务器

    公开(公告)号:CN109145305A

    公开(公告)日:2019-01-04

    申请号:CN201811051027.8

    申请日:2018-09-10

    Abstract: 本申请实施例提供了一种信息提取方法、装置及服务器,首先,从语料中提取目标对象的属性信息块;然后,使用抽取模型从属性信息块中抽取目标对象的第一信息,例如第一信息为目标对象的身份信息;另外,使用匹配规则从所述属性信息块中抽取目标对象的第二信息,例如第二信息为目标对象的社交信息。本申请实施例提供的技术方案,通过获取属性信息块,将语料中不同目标对象的信息进行分离,并针对不同类型的信息,使用不同的方法进行信息抽取。从而,本申请的技术方案在用于提取警情信息时,能够提高提取效率并且提高提取的准确性,减少信息遗漏的现象。

    一种新闻文本分类方法、装置及服务器

    公开(公告)号:CN108334610A

    公开(公告)日:2018-07-27

    申请号:CN201810116106.6

    申请日:2018-02-06

    Inventor: 任宁 晋耀红

    Abstract: 本申请实施例提供了一种新闻文本分类方法、装置及服务器,首先,根据已知新闻语料创建分类词表;然后,根据分类词表对新闻文本进行分类,获得新闻文本的命中类别;然后,对新闻文本进行分词,并获取每个新闻文本的分词与命中类别的相关度;最后,根据相关度,从新闻文本的分词中选拔特征词,并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行,本申请实现了在新闻文本的分类过程中持续地更新分类词表,使分类词表在使用过程中能够不断积累和完善特征词,及时跟随新闻文本的内容变化趋势,保持并不断提高分类词表对新出现的新闻文本的分类能力,从而,提高了新闻文本分类的准确性。

    一种自然语言处理方法及装置

    公开(公告)号:CN108182179A

    公开(公告)日:2018-06-19

    申请号:CN201810085253.1

    申请日:2018-01-29

    Inventor: 任宁

    CPC classification number: G06F17/278 G06F17/2785 G06F17/2795

    Abstract: 本发明实施例公开一种自然语言处理方法,包括:获取第一分析序列,第一分析序列包括至少一个命名实体和关联词,并且至少一个命名实体与关联词之间具有第一语序,关联词为表征命名实体之间的关联关系的字词;获取标注序列,标注序列包括至少一个预设命名实体和预设关联词,并且至少一个预设命名实体与预设关联词之间具有第二语序,每个预设命名实体对应一种关联关系的角色,预设关联词为表征预设命名实体之间的关联关系的字词;比较第一语序和第二语序是否匹配,如果是,则设置第一分析序列中命名实体的角色与标注序列中对应的预设命名实体的角色相同。采用上述方法以挖掘出文本中命名实体之间的关联关系、命名实体的角色等有价值的信息。

    一种文本相似度计算方法、装置及服务器

    公开(公告)号:CN108052509A

    公开(公告)日:2018-05-18

    申请号:CN201810095301.5

    申请日:2018-01-31

    Inventor: 任宁 李德彦

    CPC classification number: G06F17/2795 G06F17/2775

    Abstract: 本申请实施例提供了一种文本相似度计算方法、装置及服务器。在计算文本相似度时,考虑到文本内容对相似度的影响,获取两个文本词义相同的共有成分;考虑到语序对相似度的影响,获取共有成分在每个文本中的前接成分,并根据每个共有成分在每个文本中出现的次数T1和T2,以及每个共有成分在两个文本中相同前接成分的数量C1和相同后接成分的数量C2;然后,综合文本内容对相似度的影响和语序对相似度的影响,根据T1和T2、以及C1和C2得到每个共有成分对文本相似度的贡献度;最后,根据对共有成分预设的权重和相似度,计算文本相似度。从而,解决了现有技术中由于无法处理文本语序,导致计算中文文本相似度的准确度不理想的问题。

Patent Agency Ranking