-
公开(公告)号:CN113609482A
公开(公告)日:2021-11-05
申请号:CN202110796626.8
申请日:2021-07-14
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种针对图像分类模型的后门检测及修复方法及系统,属于软件技术和信息安全技术领域,采用模型剪枝、迁移学习和浅层模型训练的方法,获得与后门模型的任务相同但没有后门的一系列对照模型;借助对照模型通过优化目标函数对后门模型的每一个类别进行逆向,获得一系列潜在触发器;利用贡献度热力图对潜在触发器进行精炼,只保留影响模型分类结果的关键特征;基于后门触发器和对抗补丁在对照模型上可迁移性的差异,区分出精炼后的潜在触发器的后门触发器和对抗补丁;将区分出的后门触发器加入到干净数据集中,通过对抗训练去除后门模型中的后门。本发明仅使用少量干净数据,即可对图像分类模型的后门检测及修复,生成正常模型。
-
公开(公告)号:CN113609482B
公开(公告)日:2023-10-17
申请号:CN202110796626.8
申请日:2021-07-14
Applicant: 中国科学院信息工程研究所
IPC: G06F21/56 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/06 , G06N3/082
Abstract: 本发明公开一种针对图像分类模型的后门检测及修复方法及系统,属于软件技术和信息安全技术领域,采用模型剪枝、迁移学习和浅层模型训练的方法,获得与后门模型的任务相同但没有后门的一系列对照模型;借助对照模型通过优化目标函数对后门模型的每一个类别进行逆向,获得一系列潜在触发器;利用贡献度热力图对潜在触发器进行精炼,只保留影响模型分类结果的关键特征;基于后门触发器和对抗补丁在对照模型上可迁移性的差异,区分出精炼后的潜在触发器的后门触发器和对抗补丁;将区分出的后门触发器加入到干净数据集中,通过对抗训练去除后门模型中的后门。本发明仅使用少量干净数据,即可对图像分类模型的后门检测及修复,生成正常模型。
-