基于微信群信息的数据分析系统

    公开(公告)号:CN108880980A

    公开(公告)日:2018-11-23

    申请号:CN201810403059.3

    申请日:2018-04-28

    Abstract: 本发明公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。

    用于时序预测的参数优化系统

    公开(公告)号:CN108805254A

    公开(公告)日:2018-11-13

    申请号:CN201810393788.5

    申请日:2018-04-27

    CPC classification number: G06N3/006

    Abstract: 本发明属于时序预测技术领域,具体提供了一种时序预测的参数优选系统,旨在解决现有技术对先验知识要求高、可拓展途径较低、时间复杂度高、实际可行度低以及鲁棒性差的技术问题。为此目的,本发明提供的参数优化系统包括参数优化模块,参数优化模块配置为基于预先构建的参数优化模型对预先获取的时序预测模型进行参数优化。其中,参数优化模块包括空间调控单元以及收敛调控单元;空间调控单元配置为基于第一权重函数调控参数优化模块的空间搜索范围;收敛调控单元配置为基于第二权重函数调控参数优化模块的收敛速率。本发明的系统增加了分布式表现,各个个体可以高效交流、协作,且提高了算法的性能。

    一种计算微博用户影响力的方法

    公开(公告)号:CN105205146B

    公开(公告)日:2018-10-30

    申请号:CN201510600289.5

    申请日:2015-09-18

    Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。

    短文本相似度计算方法及系统

    公开(公告)号:CN108334495A

    公开(公告)日:2018-07-27

    申请号:CN201810090296.9

    申请日:2018-01-30

    Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。

    一种基于相似概念对的领域概念上下位关系抽取方法

    公开(公告)号:CN105808525B

    公开(公告)日:2018-06-29

    申请号:CN201610186810.X

    申请日:2016-03-29

    Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。

    针对特定领域的新词发现方法

    公开(公告)号:CN105760366B

    公开(公告)日:2018-06-29

    申请号:CN201610150038.6

    申请日:2016-03-16

    Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

    一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044A

    公开(公告)日:2018-01-26

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

Patent Agency Ranking