一种负载均衡的分布式大数据爬虫系统

    公开(公告)号:CN107071009A

    公开(公告)日:2017-08-18

    申请号:CN201710193568.3

    申请日:2017-03-28

    CPC classification number: H04L67/1002 G06F16/951 H04L67/02

    Abstract: 本发明涉及一种负载均衡的分布式大数据爬虫系统,包括用户管理端、服务器端、爬虫集群端和数据存储端,用户管理端是爬虫系统对管理者提供的Web接口,管理者通过用户管理端连接并访问Web平台,服务器端通过服务接口连接用户管理端,在服务器端设有爬虫负载均衡管理模块、爬虫任务调度模块、爬虫性能监控模块,爬虫集群端设有若干个彼此独立的网络爬虫节点,所有网络爬虫节点均通过爬行器接口连接服务器端,设置在数据存储端的存储接口通过数据总线连接爬虫集群端,数据存储端设有用于存储抓取结果文件的数据库系统。该系统通过管理者对网络爬虫集群进行统一管理和分布式部署,能灵活管理爬虫任务,实现爬虫集群的负载均衡,使得爬虫工作高效、稳定。

    一种面向短文本主题模型的大数据舆情分析方法

    公开(公告)号:CN107526819A

    公开(公告)日:2017-12-29

    申请号:CN201710755509.0

    申请日:2017-08-29

    Inventor: 张宏斌 朱斌 姚飞

    CPC classification number: G06F17/30867 G06F17/30707 G06F17/30731

    Abstract: 本发明公开了一种大数据舆情分析方法,包括:爬取数据步骤、预处理步骤、主题建模步骤、word2vec步骤、聚类步骤、统计分析步骤。本发明基于twitter、微博等网站数据爬取的包含关键词的短文本数据,针对爬取到的数据进行主题模型分析,分析出短文本主题,建立分布式的主题相似模型,基于此分析出一段时间的热点和新事,模型构建满足分布式需求、相似计算匹配采用哈希增量索引,能够适应海量数据分析需求,大大提升了舆情分析效率和分析结果精确度。

    信息智能检索系统的检索方法

    公开(公告)号:CN107038225A

    公开(公告)日:2017-08-11

    申请号:CN201710206556.X

    申请日:2017-03-31

    Abstract: 本发明涉及一种信息智能检索系统的检索方法,其特征在于,所述方法如下,1)平台系统首先从数据采集节点通过日志传输系统采集数据2)将采集的数据通过调取hadoop api传入hadoop大数据集群的hdfs分布式文件存储存3)然后根据平台相关业务确定好词典,通过平台的接口进行定时处理,将hdfs存储的元数据进行预处理,清洗无意义的数据和因编码格式产生的中文乱码 4)在此基础上,根据词典的词元分词,将词进行倒排序,进行数据分片,分布式存储在集群磁盘中,形成索引,使得数据能够进行全文检索;本发明实现自然语言处理分词,建立索引实现基于大数据量下的全文检索,对所需信息进行搜索内容快速匹配。

    一种高效鲁棒的大数据安全聚合系统与方法

    公开(公告)号:CN105933169A

    公开(公告)日:2016-09-07

    申请号:CN201610521774.8

    申请日:2016-07-04

    CPC classification number: H04L67/1004 H04L41/069 H04L63/02 H04L67/1097

    Abstract: 本发明提供一种高效鲁棒的大数据安全聚合方法,该高效鲁棒的大数据安全聚合方法将移动设备日志数据通过接口发送至网日志收集服务器,每一个网日志收集服务器上设置一个Flume Agent进程;Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;数据进入中心服务器并写入磁盘,外网磁盘存储的日志数据通过GAP传至内网中。该方法借助开源软件Apache Flume收集海量的日志数据,采用Flume的Kafkachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memorychannel和filechannel具有明显的优势。海量日志数据落入磁盘后,通过自定义接口实现Hdfs录入,已经达到百兆每秒,逼近传统百兆带宽瓶颈接近磁盘转速。

Patent Agency Ranking