Invention Grant
- Patent Title: 一种基于卷积神经网络的图像爬虫优化方法
-
Application No.: CN201610839591.0Application Date: 2016-09-22
-
Publication No.: CN106503047BPublication Date: 2019-10-11
- Inventor: 傅晨波 , 肖浩泉 , 宣琦 , 方宾伟 , 王金宝 , 郑雅羽 , 俞立
- Applicant: 浙江工业大学
- Applicant Address: 浙江省杭州市下城区潮王路18号浙江工业大学
- Assignee: 浙江工业大学
- Current Assignee: 浙江工业大学
- Current Assignee Address: 浙江省杭州市下城区潮王路18号浙江工业大学
- Agency: 杭州斯可睿专利事务所有限公司
- Agent 王利强
- Main IPC: G06F16/9535
- IPC: G06F16/9535 ; G06F16/583 ; G06K9/62

Abstract:
一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。
Public/Granted literature
- CN106503047A 一种基于卷积神经网络的图像爬虫优化方法 Public/Granted day:2017-03-15
Information query