一种面向微博客平台文本流的突发话题检测方法及系统

    公开(公告)号:CN103279479A

    公开(公告)日:2013-09-04

    申请号:CN201310138895.0

    申请日:2013-04-19

    Abstract: 本发明提供一种面向微博客平台文本流的突发话题检测方法及系统,其中方法包括:步骤1,实时采集微博客平台的用户数据及用户生成消息数据,并提取出消息文本及配图;步骤2,设定时间窗口对所述消息文本进行划分,获得实时数据流和历史数据;步骤3,选取特征,进行流行度评估模型和长微博提取模型的训练;步骤4,对所述实时数据流利用所述流行度评估模型进行流行度评估,利用所述长微博提取模型进行长微博提取,并分别放入流行消息集合和长微博集合;步骤5,判断所述流行消息集合与所述长微博集合数量是否均达到预设的阈值,若达到,使用LDA模型或加权求和的方式进行话题提取对两个集合的数据提取突发话题,否则返回步骤1。

    微博消息检索系统与方法

    公开(公告)号:CN102662986A

    公开(公告)日:2012-09-12

    申请号:CN201210065804.0

    申请日:2012-01-13

    Abstract: 本发明提供一种微博检索方法,该系统定期获取最新发布的微博消息,计算每条消息的摘要,并且提取该摘要中的词语间的关联关系,将其保存到词关系数据库中。在收到检索用户的查询词后,将与该查询词存在关联关系的多个词作为推荐词列表返回给检索用户,检索用户通过在推荐词和查询词之间建立逻辑关系来构建话题,以及将所构建的话题作为检索条件,将符合该检索条件的微博消息返回给检索用户。该系统基于由多个词构成的话题来进行检索,能够改善检索效果,提高用户体验。而且,通过利用微博用户的爱好与属性,提供一种基于人的信息查询手段,能够在最大程度上向检索用户提供其所关心的话题消息数据。

    微博客数据采集方法及系统

    公开(公告)号:CN102609460B

    公开(公告)日:2015-02-04

    申请号:CN201210011178.7

    申请日:2012-01-13

    Abstract: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。

    微博客数据采集方法及系统

    公开(公告)号:CN102609460A

    公开(公告)日:2012-07-25

    申请号:CN201210011178.7

    申请日:2012-01-13

    Abstract: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。

Patent Agency Ranking