一种基于卷积神经网络的图像爬虫优化方法
Abstract:
一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。
Public/Granted literature
Patent Agency Ranking
0/0