-
公开(公告)号:CN117149948B
公开(公告)日:2024-07-23
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
公开(公告)号:CN117149948A
公开(公告)日:2023-12-01
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN108959351B
公开(公告)日:2022-11-08
申请号:CN201810377825.3
申请日:2018-04-25
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。
-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN108810020B
公开(公告)日:2021-05-18
申请号:CN201810776782.6
申请日:2018-07-13
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L29/06 , H04L12/12 , H04B7/185 , H04W12/088 , H04W52/38
Abstract: 本发明提供一种空间互联网管控方法,其步骤包括:实时监测卫星空间站与卫星接收终端之间的星地信号以及卫星接收终端与用户终端之间的WiFi信号,找出卫星互联网用户;对检测到的卫星互联网用户的WiFi信号进行解调、协议解析及内容还原,根据管控策略判断是否含有非法内容;如果含有非法内容,通过噪声干扰来阻断区域范围内的星地信号,通过协议阻断来阻断WiFi信号。
-
公开(公告)号:CN105912716B
公开(公告)日:2019-09-10
申请号:CN201610285420.8
申请日:2016-04-29
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种短文本分类方法及装置。该方法包括:对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;根据预先构建的词项集获取每个词语及其扩展词的权重值;根据权重值,利用多个类别SVM分类模型获取短文本所属每个类别的概率;根据预设的概率分类模型确定短文本的所属类别。本发明所提供的短分本分类方法,克服了短文本特征稀疏的问题,有效降低采用多分类模型的复杂度,更符合实际应用。
-
公开(公告)号:CN108763333A
公开(公告)日:2018-11-06
申请号:CN201810445536.2
申请日:2018-05-11
Applicant: 北京航空航天大学 , 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/2795
Abstract: 本发明则提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。本发明将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。
-
公开(公告)号:CN108647318A
公开(公告)日:2018-10-12
申请号:CN201810443980.0
申请日:2018-05-10
Applicant: 北京航空航天大学 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提出一种基于多源数据的知识融合方法,在融合多个来源的实体数据时,首先分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换,这样对属性的规范化处理可以减少对后续实体比较造成的影响;然后基于实体名和实体属性对实体进行分块聚合,这样仅将同一分块内不同来源的实体作为候选匹配实体对,避免了将两个数据源中所有的实体两两间比较,减少计算复杂度;最后将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,可以直接添加到知识库中。
-
公开(公告)号:CN107480190A
公开(公告)日:2017-12-15
申请号:CN201710560579.0
申请日:2017-07-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30191 , G06F17/30867 , G06F17/30876
Abstract: 本发明公开了一种非人为访问日志的过滤方法及装置,方法包括:过滤掉符合预设条件的访问日志,得到第一标准日志;基于标准日志过滤掉预定时间段内的访问日志,得到第二标准日志;从第一标准日志获取日志中URL前缀,得到前缀集合;依据前缀集合对第二标准日志进行过滤,得到过滤结果日志;本发明的方法及装置,可以快速有效地过滤高频的非人为访问,对提升日志挖掘效率、分析用户行为乃至检测内部安全威胁均具有重要意义。
-
-
-
-
-
-
-
-
-