-
公开(公告)号:CN114417211A
公开(公告)日:2022-04-29
申请号:CN202111319929.7
申请日:2021-11-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。
-
公开(公告)号:CN110442421B
公开(公告)日:2022-04-01
申请号:CN201910578655.X
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/455
Abstract: 本发明提出一种基于Kubernetes的通用服务转换方法和系统,包括:构建由多个节点构成的Kubernetes系统,其中节点的Pod设有用于提供服务的原服务容器,并通过在Pod中新添加容器的方式或通过原容器镜像的方式,在节点的Pod中加入转换程序;每当发生一次服务调用请求,转换容器或程序根据配置,将服务调用请求转换为原服务执行请求,通过调用原服务容器,提供相对应的服务,并转换成该服务调用请求所对应的服务结果。本发明可解决Kubernetes服务与调用者之间接口不一致的问题;并可减少转换程序与服务程序、调用程序之间的网络开销,同时结合Kubernetes特性,服务程序重新部署时,转换程序自动跟随部署。
-
公开(公告)号:CN112667872A
公开(公告)日:2021-04-16
申请号:CN202011290564.5
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/9532 , G06F16/25 , G06F9/445 , G16H50/80
Abstract: 本发明公开了新冠肺炎疫情数据的实时采集方法,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,包括多个字段的名称、各字段的存储路径,各字段的被采纳次数;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据;步骤四、更新配置文件,将各信源网站中待采集字段的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1。本发明的方法从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据的准确性。
-
公开(公告)号:CN106294332B
公开(公告)日:2020-02-14
申请号:CN201510236598.9
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F40/30 , G06Q50/00
Abstract: 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN106294334A
公开(公告)日:2017-01-04
申请号:CN201510236658.7
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种微博舆情指标体系的计算方法及装置。其中,该方法包括:构建微博舆情指标体系;其中,微博舆情指标体系包括:微博主体、微博信息、微博话题和微博舆情;计算微博主体的活跃度和影响力;计算微博信息的热度和影响力;计算微博话题的热度和影响力;基于计算结果得到微博舆情综合指数。本发明构建了微博舆情指标体系,并且基于微博舆情指标体系,可准确获取得到微博舆情综合指数。解决了相关技术中舆情分析指标体系过于庞大,针对性不强的问题。微博作为网络舆情的主要推动媒介,基于本发明研究的微博舆情指标体系,将能更加准确的评估社会舆情安全状态。
-
公开(公告)号:CN112668316A
公开(公告)日:2021-04-16
申请号:CN202011290565.X
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/258 , G06F40/205 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种word文档关键信息抽取方法,其包括:步骤一、获取源word文档,遍历word文档的段落,对于任一段落,判断段落是否具有模板样式属性,若具有模板样式属性,则进入步骤二,否则进入步骤三;步骤二、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域;步骤三、基于预设的神经网络模型识别段落的信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入所属信息类别对应的区域。本发明利用了word文档中的模板样式属性的信息,从而极大地提高了word文档抽取关键信息地效率。
-
公开(公告)号:CN106294336B
公开(公告)日:2020-02-14
申请号:CN201510236795.0
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535
Abstract: 本发明公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。
-
公开(公告)号:CN106294335B
公开(公告)日:2020-01-14
申请号:CN201510236792.7
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536
Abstract: 本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,涉及网络信息挖掘技术领域,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。
-
-
-
-
-
-
-
-
-