一种寻找自然语言处理模型天然后门的方法
Abstract:
本发明公开了一种寻找自然语言处理模型天然后门的方法,该方法包括以下步骤:基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器;把生成的触发器添加到任何良性输入时,可以将深度学习模型的预测精度降低到接近于零的目标类。本发明搜索到的触发器攻击成功率高,产生的攻击样本可转移性好,可以准确地找到模型存在的天然后门。
Public/Granted literature
Patent Agency Ranking
0/0