Patent search ap:("中国科学院信息工程研究所") AND inv:"苏长鑫" Page 1

1.

发明授权
一种面向网络威胁情报的标注语料生成方法及电子装置有权

公开(公告)号：CN111859966B

公开(公告)日：2022-04-15

申请号：CN202010535333.X

申请日：2020-06-12

Applicant: 中国科学院信息工程研究所

Inventor： 苏长鑫 , 江钧 , 杨沛安 , 姜政伟 , 李小萌 , 王旭仁

IPC: G06F40/295 , G06F40/211 , G06F16/955

Abstract: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置，包括：提取结构化威胁情报数据训练集中的安全实体，将各结构化威胁情报数据映射为三元组，得到头实体集合与尾实体集合；提取待标注文本中的安全实体，获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子；判断句子中包含的关系类型；对所有句子的各三元组进行标注，得到初始标注数据集，进而得到去噪标注数据集。本发明根据远程监督理论，利用已有结构化网络威胁情报数据对未标注语料进行标注，生成大规模训练语料，并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。

2.

发明公开
一种面向网络威胁情报的标注语料生成方法及电子装置有权

公开(公告)号：CN111859966A

公开(公告)日：2020-10-30

申请号：CN202010535333.X

申请日：2020-06-12

Applicant: 中国科学院信息工程研究所

Inventor： 苏长鑫 , 江钧 , 杨沛安 , 姜政伟 , 李小萌 , 王旭仁

IPC: G06F40/295 , G06F40/211 , G06F16/955

Abstract: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置，包括：提取结构化威胁情报数据训练集中的安全实体，将各结构化威胁情报数据映射为三元组，得到头实体集合与尾实体集合；提取待标注文本中的安全实体，获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子；判断句子中包含的关系类型；对所有句子的各三元组进行标注，得到初始标注数据集，进而得到去噪标注数据集。本发明根据远程监督理论，利用已有结构化网络威胁情报数据对未标注语料进行标注，生成大规模训练语料，并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。

Patent Agency Ranking