-
公开(公告)号:CN118410225A
公开(公告)日:2024-07-30
申请号:CN202410184119.2
申请日:2024-02-19
Applicant: 河北农业大学
IPC: G06F16/951 , G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明公开了一种用于网络行为分析的辖区网站敏感信息快速爬取方法,属于信息检索和数据挖掘技术领域。通过Scrapy框架实现,1)获取辖区网站信息,并分为政府类型网站和其他类型网站;2)一次性读取辖区网站的链接和数据库中记录的爬取次数信息;3)对辖区网站链接进行清洗和验证:在爬虫时,对链接域名不完整或缺失协议字段的链接不进行访问,并对不完整或缺失的链接进行审核和补全;4)将处理过的链接送入爬虫程序,分别获取政府类型网站和其他类型网站的文本内容;5)设置定时任务,实现增量爬取。本发明通过对政府类型网站和其他类型网站的区分和差异化处理,能够快速、全面的爬取辖区网站内容,实现辖区网站敏感信息的高效监测。