-
公开(公告)号:CN117786249A
公开(公告)日:2024-03-29
申请号:CN202311813831.6
申请日:2023-12-27
Applicant: 王冰
IPC: G06F16/955 , G06F16/332 , G06F16/35 , G06F40/284 , G06F18/22 , G06F16/33
Abstract: 本申请的网络实时热点话题挖掘解析与舆情提炼系统,可以针对特定的专题和领域发现热点信息,实现了一种网络热点爬虫系统,通过高性能架构保证数据的实时性,采用连环线性中文分词模型和基于频次的关键词选举方法找到关键词,通过关键词的相对时间密度来对关键词进行热度度量,采用基于同现度的关键词归纳聚类方法,实现一种基于关键词的话题生成策略,以及基于近似度哈希的海量文档归并方法。采用初始页面的噪音处理、特定领域的文本聚类、地名个性化识别、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并,能够准确及时捕捉整个中文网络媒体网络热点。