一种寻找自然语言处理模型天然后门的方法

Invention Grant

Please log in to see more content

Patent Title: 一种寻找自然语言处理模型天然后门的方法
Application No.: CN202111220050.7

Application Date: 2021-10-20
Publication No.: CN113946688B

Publication Date: 2022-09-23
Inventor: 邵堃 , 刘辉 , 杨俊安 , 张雨 , 呼鹏江 , 艾杨
Applicant: 中国人民解放军国防科技大学
Applicant Address: 湖南省长沙市开福区德雅路109号
Assignee: 中国人民解放军国防科技大学
Current Assignee: 中国人民解放军国防科技大学
Current Assignee Address: 湖南省长沙市开福区德雅路109号
Agency: 南京理工大学专利中心
Agent 薛云燕
Main IPC: G06F16/36
IPC: G06F16/36 ; G06F16/33 ; G06N5/02

Abstract:

本发明公开了一种寻找自然语言处理模型天然后门的方法，该方法包括以下步骤：基于对抗攻击的知识库构建：在黑盒条件下，提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库；搜索触发器：通过最小化自然语言处理模型对设定数量样本的预测结果，生成具有通用攻击性的触发器；把生成的触发器添加到任何良性输入时，可以将深度学习模型的预测精度降低到接近于零的目标类。本发明搜索到的触发器攻击成功率高，产生的攻击样本可转移性好，可以准确地找到模型存在的天然后门。

Public/Granted literature

CN113946688A 一种寻找自然语言处理模型天然后门的方法 Public/Granted day:2022-01-18

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/36	..••语义工具的产生,例如,本体论或词典