一种挖掘微博话题趋势发起人的方法

    公开(公告)号:CN104866561A

    公开(公告)日:2015-08-26

    申请号:CN201510255994.6

    申请日:2015-05-19

    CPC classification number: G06F17/30867

    Abstract: 本发明公开了一种挖掘微博话题趋势发起人的方法,属于数据挖掘领域。首先针对某一话题微博,以天为时间粒度,构造微博量随时间变化的趋势图,获取波峰点和波谷点,确定趋势的时间范围,提取微博高频词代表趋势主要内容,以趋势早期参与微博高频词的数量作为该条微博的内容相关度,降序排序后提取趋势制造者。根据趋势变化,以小时为时间粒度,构造趋势时间范围的微博数量变化图,获取斜率最大的时间范围作为增速最大的时间段,并对微博转发量降序排序,确定趋势推动者。本发明利用微博数据平台,具有高效性、鲁棒性和简洁性等优点,适用于对话题微博趋势发起人方面的分析,在社会舆情监控和信息传播分析等领域具有重要的应用价值。

    一种微博转发树和转发森林构建方法

    公开(公告)号:CN104778210A

    公开(公告)日:2015-07-15

    申请号:CN201510111754.9

    申请日:2015-03-13

    Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3-t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。

    信源重要度的评级方法及评级系统

    公开(公告)号:CN106168969B

    公开(公告)日:2019-05-14

    申请号:CN201610524367.2

    申请日:2016-07-05

    Abstract: 本发明提供一种信源重要度的评级方法及评级系统,评级方法包括:步骤1,计算信源所属网站的网站重要度值W1;步骤2,计算信源在所属行业的行业重要度值W2;步骤3,预设定网站重要度权重值C1和行业重要度权重值C2;根据下式计算得到信源重要度值M:信源重要度值M=网站重要度值W1*网站重要度权重值C1+行业重要度值W2*行业重要度权重值C2;步骤4,根据信源重要度值M对信源进行重要度评级,并输出信源重要度评级结果。优点为:本发明能够对信源进行客观、科学合理、有效实用的信源重要度评级。

    一种基于相似概念对的领域概念上下位关系抽取方法

    公开(公告)号:CN105808525B

    公开(公告)日:2018-06-29

    申请号:CN201610186810.X

    申请日:2016-03-29

    Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。

    针对特定领域的新词发现方法

    公开(公告)号:CN105760366B

    公开(公告)日:2018-06-29

    申请号:CN201610150038.6

    申请日:2016-03-16

    Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692A

    公开(公告)日:2017-07-25

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552A

    公开(公告)日:2017-04-05

    申请号:CN201610958001.6

    申请日:2016-10-27

    Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

Patent Agency Ranking