-
公开(公告)号:CN111488424A
公开(公告)日:2020-08-04
申请号:CN202010230061.2
申请日:2020-03-27
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/31 , G06F16/38 , G06F16/951 , G06F16/955 , G06F40/14
Abstract: 本发明提出一种特定学术领域人物的发现与跟踪方法,包括:发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
-
公开(公告)号:CN109814992A
公开(公告)日:2019-05-28
申请号:CN201811634642.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;通过该采集器执行该采集任务,以获取采集结果。本发明的分布式调度方法是采集器、信息来源无关的通用调度方法,本方法支持多种异构采集器,支持异构节点,支持采集节点与采集器的热插拔,动态扩展。
-
公开(公告)号:CN109815382B
公开(公告)日:2022-07-12
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109815382A
公开(公告)日:2019-05-28
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN109840298B
公开(公告)日:2021-09-24
申请号:CN201811637902.0
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。
-
公开(公告)号:CN109753596B
公开(公告)日:2021-05-25
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒‑信簇‑信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
公开(公告)号:CN109840298A
公开(公告)日:2019-06-04
申请号:CN201811637902.0
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。
-
公开(公告)号:CN109753596A
公开(公告)日:2019-05-14
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
-
-
-
-
-
-
-
-