一种负载均衡的分布式大数据爬虫系统

    公开(公告)号:CN107071009A

    公开(公告)日:2017-08-18

    申请号:CN201710193568.3

    申请日:2017-03-28

    CPC classification number: H04L67/1002 G06F16/951 H04L67/02

    Abstract: 本发明涉及一种负载均衡的分布式大数据爬虫系统,包括用户管理端、服务器端、爬虫集群端和数据存储端,用户管理端是爬虫系统对管理者提供的Web接口,管理者通过用户管理端连接并访问Web平台,服务器端通过服务接口连接用户管理端,在服务器端设有爬虫负载均衡管理模块、爬虫任务调度模块、爬虫性能监控模块,爬虫集群端设有若干个彼此独立的网络爬虫节点,所有网络爬虫节点均通过爬行器接口连接服务器端,设置在数据存储端的存储接口通过数据总线连接爬虫集群端,数据存储端设有用于存储抓取结果文件的数据库系统。该系统通过管理者对网络爬虫集群进行统一管理和分布式部署,能灵活管理爬虫任务,实现爬虫集群的负载均衡,使得爬虫工作高效、稳定。

Patent Agency Ranking