Invention Grant
- Patent Title: 一种寻找自然语言处理模型天然后门的方法
-
Application No.: CN202111220050.7Application Date: 2021-10-20
-
Publication No.: CN113946688BPublication Date: 2022-09-23
- Inventor: 邵堃 , 刘辉 , 杨俊安 , 张雨 , 呼鹏江 , 艾杨
- Applicant: 中国人民解放军国防科技大学
- Applicant Address: 湖南省长沙市开福区德雅路109号
- Assignee: 中国人民解放军国防科技大学
- Current Assignee: 中国人民解放军国防科技大学
- Current Assignee Address: 湖南省长沙市开福区德雅路109号
- Agency: 南京理工大学专利中心
- Agent 薛云燕
- Main IPC: G06F16/36
- IPC: G06F16/36 ; G06F16/33 ; G06N5/02

Abstract:
本发明公开了一种寻找自然语言处理模型天然后门的方法,该方法包括以下步骤:基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器;把生成的触发器添加到任何良性输入时,可以将深度学习模型的预测精度降低到接近于零的目标类。本发明搜索到的触发器攻击成功率高,产生的攻击样本可转移性好,可以准确地找到模型存在的天然后门。
Public/Granted literature
- CN113946688A 一种寻找自然语言处理模型天然后门的方法 Public/Granted day:2022-01-18
Information query