-
公开(公告)号:CN106960391A
公开(公告)日:2017-07-18
申请号:CN201710099554.5
申请日:2017-02-23
Applicant: 武汉智寻天下科技有限公司
CPC classification number: G06Q50/01 , G06F17/30589 , G06F17/30592 , G06F17/30598
Abstract: 本发明公开了一种用户信息聚合方法、系统和装置。所述方法包括:获取用户在各社交网站使用的用户信息;根据用户信息中包括的信息记录项,确定任意两个用户信息之间关联关系;根据确定出的用户信息之间的关联关系,构造以用户信息为节点的用户信息聚合超集模型,所述模型的任意两节点间以单向边标注所对应的两个用户信息的关联关系。能够将不同网站的用户信息进行聚合,方便后续的查询使用。
-
公开(公告)号:CN107092639A
公开(公告)日:2017-08-25
申请号:CN201710099841.6
申请日:2017-02-23
Applicant: 武汉智寻天下科技有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明实施例提供的搜索引擎系统,包括索引装置、数据处理装置、搜索装置和交互装置,上述装置可以是服务器集群,采用分布式架构,可以彼此进行服务器间通信,本技术方案可以是针对互联网领域预设对象的垂直搜索,通过采集预设对象的相关信息,解析处理后,通过接收查询指令,为用户提供有一定价值的信息和相关服务,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎结果查询更准确、可以返回直接定位到预设的对象比如程序员。
-
公开(公告)号:CN107066526A
公开(公告)日:2017-08-18
申请号:CN201710099555.X
申请日:2017-02-23
Applicant: 武汉智寻天下科技有限公司
CPC classification number: G06F9/546 , G06F16/9535 , G06F2209/548
Abstract: 本发明实施例提供的网络爬虫系统及方法,该系统包括至少一个服务器集群,服务器集群包括多个服务器;上述多个服务器用于接收至少一个链接生成任务,放入任务队列;根据任务中存储的链接,下载链接所对应的网页内容;将网页内容解析成预设的数据和新链接,将预设的数据存储在数据库中,将新链接暂存到缓存中;对所述新链接进行过滤去重处理,去重处理后的新链接加入到任务队列。本发明技术方案采用分布式架构,所有各个功能程序可以分布到不同的物理节点上,以此来扩充整体的性能,实现了可以横向扩展性能,可以并行或串行地运行,可以满足大规模、快速大数据量的网络抓取。
-
-