文本情感分析方法、装置及介质

    公开(公告)号:CN109522412A

    公开(公告)日:2019-03-26

    申请号:CN201811352096.2

    申请日:2018-11-14

    Abstract: 本发明实施例公开一种文本情感分析方法、装置及介质,该方法包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。采用上述技术方案中的文本情感分析方法,可以查找出更有针对性、极性更加准确的评价词,同时减少评价词与评价对象张冠李戴的情况,进而提升情感分析结果准确率。

    一种规范文书处理方法、装置及系统

    公开(公告)号:CN107590131A

    公开(公告)日:2018-01-16

    申请号:CN201710959524.7

    申请日:2017-10-16

    Abstract: 本发明实施例公开了一种规范文书处理方法、装置及系统。为了从规范文书中获取完整的文书要素,首先,从规范文书中获取文书身份,文书身份至少包含文书性质;然后,根据文书身份,选择与规范文书对应的目录树,目录书中至少包含一个目录节点,每个目录节点包含至少一个抽取表达式;然后,根据目录树,对规范文书进行切块处理,将规范文书切成至少一个内容区块,每个内容区块与目录树中的目录节点相对应,并根据目录节点的顺序,将切块处理后的规范文书以内容区块的形式显示,实现了对规范文书的结构化处理,使用户能够直观了解规范文书的内容结构;最后,根据预设提取规则,从内容区块中提取文书要素,从而实现从规范文书中获取完整的文书要素。

    业务文档的公式信息提取方法及装置

    公开(公告)号:CN108304383B

    公开(公告)日:2019-06-25

    申请号:CN201810085254.6

    申请日:2018-01-29

    Inventor: 任宁

    Abstract: 本发明实施例公开一种业务文档的公式信息提取方法及装置,该方法包括:获取第一序列,第一序列由业务文档生成,包括至少两个变量;获取第一标注序列,第一标注序列包括至少两个预设变量,第一标注序列对应第一标注表达式,第一标注表达式包括至少两个预设变量和至少两个预设变量之间的运算关系;如果第一序列与第一标注序列相匹配,则根据第一标注表达式及至少两个变量提取第一表达式,第一表达式包括至少两个变量和至少两个变量之间的运算关系,其中,至少两个变量之间的运算关系与第一标注表达式中的至少两个预设变量之间的运算关系相同。采用上述技术方案的提取方法可以有效提取出业务文档中的公式信息,尤其是隐含的用文本描述的公式信息。

    一种信息提取方法、装置及服务器

    公开(公告)号:CN109145305A

    公开(公告)日:2019-01-04

    申请号:CN201811051027.8

    申请日:2018-09-10

    Abstract: 本申请实施例提供了一种信息提取方法、装置及服务器,首先,从语料中提取目标对象的属性信息块;然后,使用抽取模型从属性信息块中抽取目标对象的第一信息,例如第一信息为目标对象的身份信息;另外,使用匹配规则从所述属性信息块中抽取目标对象的第二信息,例如第二信息为目标对象的社交信息。本申请实施例提供的技术方案,通过获取属性信息块,将语料中不同目标对象的信息进行分离,并针对不同类型的信息,使用不同的方法进行信息抽取。从而,本申请的技术方案在用于提取警情信息时,能够提高提取效率并且提高提取的准确性,减少信息遗漏的现象。

    一种新闻文本分类方法、装置及服务器

    公开(公告)号:CN108334610A

    公开(公告)日:2018-07-27

    申请号:CN201810116106.6

    申请日:2018-02-06

    Inventor: 任宁 晋耀红

    Abstract: 本申请实施例提供了一种新闻文本分类方法、装置及服务器,首先,根据已知新闻语料创建分类词表;然后,根据分类词表对新闻文本进行分类,获得新闻文本的命中类别;然后,对新闻文本进行分词,并获取每个新闻文本的分词与命中类别的相关度;最后,根据相关度,从新闻文本的分词中选拔特征词,并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行,本申请实现了在新闻文本的分类过程中持续地更新分类词表,使分类词表在使用过程中能够不断积累和完善特征词,及时跟随新闻文本的内容变化趋势,保持并不断提高分类词表对新出现的新闻文本的分类能力,从而,提高了新闻文本分类的准确性。

    一种自然语言处理方法及装置

    公开(公告)号:CN108182179A

    公开(公告)日:2018-06-19

    申请号:CN201810085253.1

    申请日:2018-01-29

    Inventor: 任宁

    CPC classification number: G06F17/278 G06F17/2785 G06F17/2795

    Abstract: 本发明实施例公开一种自然语言处理方法,包括:获取第一分析序列,第一分析序列包括至少一个命名实体和关联词,并且至少一个命名实体与关联词之间具有第一语序,关联词为表征命名实体之间的关联关系的字词;获取标注序列,标注序列包括至少一个预设命名实体和预设关联词,并且至少一个预设命名实体与预设关联词之间具有第二语序,每个预设命名实体对应一种关联关系的角色,预设关联词为表征预设命名实体之间的关联关系的字词;比较第一语序和第二语序是否匹配,如果是,则设置第一分析序列中命名实体的角色与标注序列中对应的预设命名实体的角色相同。采用上述方法以挖掘出文本中命名实体之间的关联关系、命名实体的角色等有价值的信息。

    一种文本相似度计算方法、装置及服务器

    公开(公告)号:CN108052509A

    公开(公告)日:2018-05-18

    申请号:CN201810095301.5

    申请日:2018-01-31

    Inventor: 任宁 李德彦

    CPC classification number: G06F17/2795 G06F17/2775

    Abstract: 本申请实施例提供了一种文本相似度计算方法、装置及服务器。在计算文本相似度时,考虑到文本内容对相似度的影响,获取两个文本词义相同的共有成分;考虑到语序对相似度的影响,获取共有成分在每个文本中的前接成分,并根据每个共有成分在每个文本中出现的次数T1和T2,以及每个共有成分在两个文本中相同前接成分的数量C1和相同后接成分的数量C2;然后,综合文本内容对相似度的影响和语序对相似度的影响,根据T1和T2、以及C1和C2得到每个共有成分对文本相似度的贡献度;最后,根据对共有成分预设的权重和相似度,计算文本相似度。从而,解决了现有技术中由于无法处理文本语序,导致计算中文文本相似度的准确度不理想的问题。

    时间词的抽取方法及装置

    公开(公告)号:CN107894978A

    公开(公告)日:2018-04-10

    申请号:CN201711123985.7

    申请日:2017-11-14

    Inventor: 任宁 张建军

    Abstract: 本发明实施例公开一种时间词的抽取方法及装置,该方法包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。上述技术方案一方面可以简化抽取规则,扩大抽取出的候选词的数量,避免因为抽取规则过于复杂而导致大量时间词被遗漏的情况;另一方面,通过对候选词进行消歧,能够较为准确地抽取出文本中的时间词,尤其适用于时间词表现形式多样化的中文文本。

    一种业务文档公式提取方法及装置

    公开(公告)号:CN107885870A

    公开(公告)日:2018-04-06

    申请号:CN201711189981.9

    申请日:2017-11-24

    Inventor: 任宁 郝思洋 张青

    Abstract: 本申请提供一种业务文档公式提取方法及装置,在对业务文本中的公式内容进行提取过程中,先定位业务文档中的特征语句,以减少数据处理量;再定位特征语句中的特征词信息,并确定特征语句中包含结果量信息的结果量语句以及包含自变量和运算关系信息的自变量语句;再根据信息抽取模型提取语句中的结果量信息、自变量信息以及运算关系信息,最后将提取的结果量信息和自变量信息按照运算关系组合成公式进行保存。本申请提供的公式提取方法,可根据信息抽取模型分析业务文档中的公式,并提取出相应的公式信息,提高数据挖掘的效率,解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。

Patent Agency Ranking