-
公开(公告)号:CN118820566A
公开(公告)日:2024-10-22
申请号:CN202410763989.5
申请日:2024-06-13
Applicant: 国网山西省电力公司长治供电公司
IPC: G06F16/951 , G06F16/955
Abstract: 本发明涉及数据抓取技术领域,并具体公开了一种基于大数据产品开发筛选的数据智能抓取方法及系统,包括:基于所有抓取网站主页面的URL获得待爬取队列,基于每个有效队列元素获得每个有效队列元素的所有子URL和每个有效队列元素的可见内容及需求符合度,并基于每个有效队列元素的所有子URL获得每个有效队列元素的每个有效子URL的可见内容及需求符合度;基于所有有效队列元素的需求符合度和所有有效队列元素的所有有效子URL的需求符合度获得每个有效队列元素的抓取评估值和数据智能抓取结果。本发明实现了在抓取过程中从抓取内容和抓取效率两个方面对抓取内容的抓取效果进行综合量化,保证了在有限的资源下,优先抓取内容质量高、抓取效率快的网页。