一种微博突发话题检测方法及装置

    公开(公告)号:CN106294333B

    公开(公告)日:2019-10-29

    申请号:CN201510236634.1

    申请日:2015-05-11

    Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。

    一种模板网站关键源码片段识别方法

    公开(公告)号:CN118796264A

    公开(公告)日:2024-10-18

    申请号:CN202410768709.X

    申请日:2024-06-14

    Abstract: 本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。

    非法集资线索识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114817485A

    公开(公告)日:2022-07-29

    申请号:CN202110078586.3

    申请日:2021-01-20

    Abstract: 本发明实施例涉及一种非法集资线索识别方法、装置、电子设备及存储介质,所述方法包括:获取多个待进行非法集资线索识别的目标文本数据;基于预设的线索特征规则库从多个所述目标文本数据中确定疑似非法集资线索数据;将所述疑似非法集资线索数据输入至至少一个已训练的非法集资线索分类模型,得到至少一个预测参数;依据所述疑似非法集资线索数据与所述疑似非法集资线索数据对应的至少一个所述预测参数构建非法集资线索数据库。由此,可以提高从海量互联网数据中筛选非法集资线索数据的效率,以及提高最终筛选出的非法集资线索数据的准确性、全面性。

Patent Agency Ranking