-
公开(公告)号:CN112884130B
公开(公告)日:2025-01-21
申请号:CN202110281225.9
申请日:2021-03-16
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于SeqGAN的深度强化学习数据增强防御方法和装置,首先,利用DQN算法对目标智能体进行预训练,再采样多个T时刻的序列状态动作对作为真实序列轨迹数据;其次将初始状态动作对输入到生成器中利用生成器来生成序列状态策略轨迹数据,使用判别器和基于策略梯度的蒙特卡洛法来评估生成的序列得到的奖励,用于引导生成器的训练,以用于生成接近真实的状态动作数据;最后通过比较由模型策略得到的序列累计奖励值和SeqGAN生成的状态策略得到的累计奖励值大小来对训练数据进行增强,以优化模型的策略,提高模型的鲁棒性。
-
公开(公告)号:CN113313236B
公开(公告)日:2024-03-15
申请号:CN202110648356.6
申请日:2021-06-10
Applicant: 浙江工业大学
IPC: G06N3/092 , G06N3/084 , G06F21/56 , G06N3/0464 , G06N3/045
Abstract: 本发明公开了一种基于时序神经通路的深度强化学习模型中毒检测方法及其装置,包括:定义深度强化学习的时序神经通路,并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路,具体过程为:通过多次查找得到第一部分的Top‑c神经元,该Top‑c神经元与第二部分的所有神经元投入神经元池,依据神经元池构建深度强化学习的时序神经通路;将样本数据输入至深度强化学习模型中,利用构建的时序神经通路的反向传播生成扰动,将扰动添加到输入样本得到中毒样本;将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
-
公开(公告)号:CN113298255A
公开(公告)日:2021-08-24
申请号:CN202110656115.6
申请日:2021-06-11
Applicant: 浙江工业大学
Abstract: 本发明的公开了一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置,包括以下步骤:(1)搭建智能驾驶环境,从智能驾驶环境中采集状态数据对深度强化学习模型训练,直到达到设定回报值为止;(2)利用训练好的深度强化学习模型在环境中运行,提取多轮的状态动作对;(3)构建用于根据历史状态动作对序列预测未来时刻状态动作对序列的预测器和用于对状态动作对进行质量分类的分类器,并利用提取的状态动作对训练预测器和分类器;(4)依据定义的对抗采样策略,根据状态动作对质量采样状态动作对并进行深度强化学习模型的再训练,以提高深度强化学习模型的鲁棒性。
-
公开(公告)号:CN113297574A
公开(公告)日:2021-08-24
申请号:CN202110653241.6
申请日:2021-06-11
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,通过在模型输出中,对激活函数进行自适应变化,使用强化学习的奖励机制不断调整自适应策略,降低攻击者从模型输出中获取的信息量,隐藏模型输出的置信度信息中的敏感信息,达到对于模型窃取攻击的防御目的。本发明的方法,在不同的数据集上和模型上,均能达到良好的防御效果。
-
公开(公告)号:CN112052456B
公开(公告)日:2024-07-19
申请号:CN202010899020.2
申请日:2020-08-31
Applicant: 浙江工业大学
IPC: G06F21/57 , G06F18/214 , G06N3/092 , G06N5/04
Abstract: 本发明公开了一种基于多智能体的深度强化学习策略优化防御方法,包括:(1)构建包含有目标智能体和多个对抗性智能体的自动驾驶环境;(2)根据对抗性智能体对目标智能体的攻击成功与否,将目标智能体的状态转换过渡过程数据分别存在经验回放缓冲区D+和D‑中,从D+和D‑中采集数据更新对抗性智能体对应的决策梯度算法模型参数;(3)将对抗性智能体与目标智能体车一起进行博弈训练,目标智能体的状态转换过渡过程数据存储在经验缓冲区D,从D中采集数据更新目标智能体对应的决策梯度算法模型参数,直到博弈训练结束为止;(4)应用时,将采集的局域环境状态数据输入至目标智能体对应的决策梯度算法模型中,经计算输出决策动作指导目标智能体执行。
-
公开(公告)号:CN113297574B
公开(公告)日:2022-08-02
申请号:CN202110653241.6
申请日:2021-06-11
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,通过在模型输出中,对激活函数进行自适应变化,使用强化学习的奖励机制不断调整自适应策略,降低攻击者从模型输出中获取的信息量,隐藏模型输出的置信度信息中的敏感信息,达到对于模型窃取攻击的防御目的。本发明的方法,在不同的数据集上和模型上,均能达到良好的防御效果。
-
公开(公告)号:CN113392396A
公开(公告)日:2021-09-14
申请号:CN202110651675.2
申请日:2021-06-11
Applicant: 浙江工业大学
Abstract: 本发明公开了一种面向深度强化学习的策略保护防御方法,包括以下步骤:1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;2)根据优化后的深度Q网络的策略πt生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据;3)根据专家数据模仿学习生成模仿策略πIL;4)目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度Q网络进行微调并修改目标函数,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,保证根据模仿策略πIL得到的期望奖励值较低,以达到策略保护的目的。
-
公开(公告)号:CN112069504A
公开(公告)日:2020-12-11
申请号:CN202010896464.0
申请日:2020-08-31
Applicant: 浙江工业大学
Abstract: 本发明公开了一种面向深度强化学习对抗攻击的模型增强防御方法,包括:(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据;(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定Actor损失函数和Critic损失函数;(3)针对每个线程对应的子强化学习模型,根据Actor损失函数对子Actor网络模型进行优化学习;根据Critic损失函数对子Critic网络模型进行优化学习;(4)利用子强化学习模型的参数更新A3C模型对应的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。
-
公开(公告)号:CN111600851A
公开(公告)日:2020-08-28
申请号:CN202010345029.9
申请日:2020-04-27
Applicant: 浙江工业大学
Abstract: 本发明公开了一种面向深度强化学习模型的特征过滤防御方法,包括:(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DPG模型进行动作预测,输出并执行预测动作。
-
公开(公告)号:CN113298255B
公开(公告)日:2024-03-15
申请号:CN202110656115.6
申请日:2021-06-11
Applicant: 浙江工业大学
IPC: G06N3/092 , G06N3/094 , G06F18/241
Abstract: 本发明的公开了一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置,包括以下步骤:(1)搭建智能驾驶环境,从智能驾驶环境中采集状态数据对深度强化学习模型训练,直到达到设定回报值为止;(2)利用训练好的深度强化学习模型在环境中运行,提取多轮的状态动作对;(3)构建用于根据历史状态动作对序列预测未来时刻状态动作对序列的预测器和用于对状态动作对进行质量分类的分类器,并利用提取的状态动作对训练预测器和分类器;(4)依据定义的对抗采样策略,根据状态动作对质量采样状态动作对并进行深度强化学习模型的再训练,以提高深度强化学习模型的鲁棒性。
-
-
-
-
-
-
-
-
-