一种面向微博的非分词突发话题检测方法

    公开(公告)号:CN104216964A

    公开(公告)日:2014-12-17

    申请号:CN201410416127.1

    申请日:2014-08-22

    Abstract: 本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。本发明包括:语料预处理,构建动态的微博检测窗口;将微博内容切分成单个汉字,并构建字典;计算突发特征字集合;计算由特征字组成的突发话题;生成有意义词或串,形成由词或串表示的突发话题。本发明提出了一种无须中文分词的微博突发话题检测方法,对中文微博消息内容事先不做中文分词,而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词,能够提高检测方法的整体性能,提高对新词、口语化串的召回率。

Patent Agency Ranking