一种基于爬虫网络框架的数据采集储存系统及其方法

    公开(公告)号:CN114238734A

    公开(公告)日:2022-03-25

    申请号:CN202111489435.3

    申请日:2021-12-08

    Abstract: 本发明公开了一种基于爬虫网络框架的数据采集储存系统及其方法,包括爬虫引擎、调度器、下载器、解析器、存储管道,调度器、下载器、解析器分别与爬虫引擎信号连接;通道包括项目管道、业务逻辑模块;业务逻辑模块在项目管道中分拣结构化数据和非结构数据,并将不同类别的数据存储至不用的存储模块中;调度器与下载器中间设置有去重模块,去重模块采用MD5算法对URL去重。现有技术去重模块设置的位置一般在存储通道位置,其去重时间长,爬取网页速度慢,本发明设置在调度器与下载器数据传递之间,节省了去重时间;另外,本发明存储通道具备MongoDB集群技术,结构化数据和非结构化数据最后统一整合至MongoDB集群中,具备通用性。

    一种适应于多类信息系统集成的软件资源整合平台

    公开(公告)号:CN111381811A

    公开(公告)日:2020-07-07

    申请号:CN201811636943.8

    申请日:2018-12-29

    Abstract: 本发明涉及一种适应于多类信息系统集成的软件资源整合平台,包括:用户界面层、应用系统层、应用系统元数据层和应用系统执行引擎层;用户界面层向应用系统层发送数据请求;应用系统层,将数据请求分配到对应的系统访问界面,发送元数据访问指令到应用系统元数据层;应用系统元数据层包含若干元数据项,接收到的元数据访问指令,对其进行解析,根据元数据访问指令中包含的元数据项,动态形成数据源的访问指令,发送至应用系统执行引擎层。本发明克服了以往企业购买使用通用应用软件遭遇的困境,采用按需定制得方式,帮助企业获得真正适合行业特点、满足企业个性化需求的应用软件。企业只需很短时间就能完成应用的开发和部署。

Patent Agency Ranking