文献内容检索与识别方法及装置

    公开(公告)号:CN109635275A

    公开(公告)日:2019-04-16

    申请号:CN201811312375.6

    申请日:2018-11-06

    Inventor: 罗铭 刘波

    CPC classification number: G06F17/2765 G06F17/2785

    Abstract: 本发明实施例提供一种文献内容检索与识别方法及装置,方法包括:利用分布式计算引擎架构,存储并读取目标文章,对目标文章进行拆分,获得目标文章的语句和词汇;利用停词库去除目标文章的语句和词汇中的无效词汇;将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,提取出目标文章中与目标语句库的内容相似的所有语句和目标文章中与目标词库的内容相似的所有词汇;其中,目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;预先生成的相似度分析模型是基于目标语句库和目标词库中的内容利用逻辑回归算法而生成的。能实现文献内容自动获取,应对大量的文献阅读工作,避免了重复阅读,降低工作量。

    基于互联网海量信息的关键词分类处理系统及其方法

    公开(公告)号:CN109635180A

    公开(公告)日:2019-04-16

    申请号:CN201811525512.4

    申请日:2018-12-13

    CPC classification number: G06F17/2765

    Abstract: 本发明公开了一种基于互联网海量信息的关键词分类处理系统及其方法,涉及即时通讯数据分析领域。本系统包括数据源收集模块(10)、文本识别模块(20)、文本训练模块(30)、关键词分类处理模块(40)、数据接入过滤模块(50)、数据处理存储模块(60);数据源收集模块(10)、文本识别模块(20)、文本训练模块(30)和关键词分类处理模块(40)依次循环交互;数据接入过滤模块(50)、数据处理存储模块(60)和关键词分类处理模块(40)依次循环交互。本发明较传统的数据分析扩大了网络数据分析的领域,并能倒推出复杂数据基本特征,对其相关数据进行有针对性的全面分析。

    基于多层注意力机制的循环神经网络生成标题的方法

    公开(公告)号:CN109214003A

    公开(公告)日:2019-01-15

    申请号:CN201810993623.1

    申请日:2018-08-29

    CPC classification number: G06F17/2785 G06F17/2765 G06N3/0454

    Abstract: 一种基于多层注意力机制的循环神经网络生成标题的方法,其中所述循环神经网络包括过滤层,编码器,注意力机制和解码器四部分,所述方法包括如下步骤:S100:将源文本输入到所述过滤层的多个摘要生成方法后生成多个粗度摘要;S200:将所述多个粗度摘要再分别输入到所述编码器中编码,输出各自的隐藏层表示序列;S300:合并所述隐藏层表示序列,生成表示整个文档的重要信息的总结语义,利用注意力上下文对生成的粗度摘要和编码器内的单词给予关注;S400:把所述注意力上下文和所述总结语义输入到所述解码器中生成相应的标题。该方法相较于现有方法,提高了生成的标题的准确性和可读性。

    语义模型的学习训练方法、装置及计算机可读存储介质

    公开(公告)号:CN109033082A

    公开(公告)日:2018-12-18

    申请号:CN201810800318.6

    申请日:2018-07-19

    Inventor: 曾志辉 姚凯

    CPC classification number: G06F17/2765

    Abstract: 本发明公开了一种语义模型的学习训练方法,包括:基于预设的核心词库,采用双向最大匹配法对训练文本进行分词处理,获得所述训练文本对应的匹配分词结果,所述匹配分词结果包括单字和/或核心词;当存在核心词时,确定所述核心词对应的词库类型;根据预设的语义模型,获取所述单字和/或所述词库类型对应的索引编码,以根据所述索引编码表示所述训练文本,其中,在所述语义模型中,每个单字对应唯一的索引编码,每个词库类型对应唯一的索引编码。本发明还公开了一种语义模型的学习训练装置及计算机可读存储介质。本发明提高了语义模型的学习训练效率。

    输入流识别方法、装置与计算机可读存储介质

    公开(公告)号:CN108959238A

    公开(公告)日:2018-12-07

    申请号:CN201710372798.6

    申请日:2017-05-24

    Inventor: 江浩

    CPC classification number: G06F17/2765

    Abstract: 本公开提供一种输入流识别方法、装置与计算机可读存储介质。输入流识别方法包括:获取输入流,生成拼音序列;通过评分函数基于动态规划获得所述拼音序列的多个拼音切分方案的评分;根据评分最优的拼音切分方案输出输入流识别结果。本公开提供的输入流识别方法可以提高输入流识别的效率与准确率。

    一种消费统计方法、终端及计算机可读存储介质

    公开(公告)号:CN107908617A

    公开(公告)日:2018-04-13

    申请号:CN201711052682.0

    申请日:2017-10-30

    Inventor: 蒋婷婷

    CPC classification number: G06F17/2765 G06Q20/32 G06Q30/0601

    Abstract: 本发明提供一种消费统计方法、终端及计算机可读存储介质,针对现有技术中消费统计手段繁琐,且整体性差的问题,通过确定终端中正在前台运行的金融应用,监测金融应用中的支付界面,获取支付界面中的金融信息,其中金融信息至少包括交易方和对应的金额,根据交易方对应存储金融信息。通过本发明的实施,以监测各金融应用在支付交易过程中的支付界面的方式,确定支付的金额和对象,从而无需用户自行手动输入,且实现了不同的金融应用的支付信息的整合,提升了消费统计的整体性,极大的改善了用户体验。

    一种业务文档公式提取方法及装置

    公开(公告)号:CN107885870A

    公开(公告)日:2018-04-06

    申请号:CN201711189981.9

    申请日:2017-11-24

    Inventor: 任宁 郝思洋 张青

    Abstract: 本申请提供一种业务文档公式提取方法及装置,在对业务文本中的公式内容进行提取过程中,先定位业务文档中的特征语句,以减少数据处理量;再定位特征语句中的特征词信息,并确定特征语句中包含结果量信息的结果量语句以及包含自变量和运算关系信息的自变量语句;再根据信息抽取模型提取语句中的结果量信息、自变量信息以及运算关系信息,最后将提取的结果量信息和自变量信息按照运算关系组合成公式进行保存。本申请提供的公式提取方法,可根据信息抽取模型分析业务文档中的公式,并提取出相应的公式信息,提高数据挖掘的效率,解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。

    基于大数据和深度学习的情感分析方法、装置和存储介质

    公开(公告)号:CN107862087A

    公开(公告)日:2018-03-30

    申请号:CN201711249308.X

    申请日:2017-12-01

    Abstract: 本申请公开了一种基于大数据和深度学习的情感分析方法、装置和存储介质,其中情感分析方法包括:对具有初步标注信息的情感数据进行预处理;采用启发式扩展方式对情感数据进行标注;启发式扩展方式包括:对情感数据进行分词,提取情感词,为其分配情感强度值;提取修饰词,为修饰词分配修饰强度值;计算短语的情感强度;如果短语的情感强度所对应的情感极性与情感数据的情感极性一致,则将短语和情感强度值加入情感标注数据集。通过对收集到的情感数据进行启发式扩展,可以为后续的数据处理提供良好的原始数据,提高后续数据分析的针对性和准确性,使情感词库更加准确和完善。

Patent Agency Ranking