-
公开(公告)号:CN118396077A
公开(公告)日:2024-07-26
申请号:CN202410479935.6
申请日:2024-04-22
Applicant: 安徽大学
Abstract: 本发明公开了一种基于值函数输入扰动的多无人艇强化学习策略训练方法,包括:步骤1、获取多无人艇系统在执行任务时的状态向量;步骤2、构建无人艇多智能体强化学习模型,包括策略网络、目标策略网络、值网络、目标值网络、经验池、噪声注入模块;步骤3、基于状态向量、多智能体强化学习模型,多无人艇系统与环境进行交互,并将交互过程中的数据存储至经验池中,直到经验池存满;步骤4、当经验池存满后,从经验池中采样数据,结合高斯噪声对多智能体强化学习模型进行训练;步骤5、采用训练好的模型指导多无人艇系统进行协同导航。本发明解决了复杂海洋环境下多无人艇协同导航问题,并进一步提高了多无人艇系统导航成功率,缩短了任务完成时间。
-
公开(公告)号:CN117168468B
公开(公告)日:2024-02-06
申请号:CN202311452155.4
申请日:2023-11-03
Applicant: 安徽大学
IPC: G01C21/20
Abstract: 本发明公开了一种基于近端策略优化的多无人艇深度强化学习协同导航方法,对单个无人艇进行数学建模,确定无人艇水平面运动的运动学模型及动力学模型;将多无人艇多目标导航问题建模为马尔科夫决策过程,确定状态空间以及动作空间;根据多无人艇多目标导航的目标,建立考虑无人艇与障碍物发生碰撞情况以及无人艇与其余的无人艇发生碰撞情况的差分奖励函数;获取多个无人艇的状态信息,输入多智能体深度强化学习模型,得到多个无人艇的动作;采用训练后的多智能体深度强化学习模型进行多无人艇多目标导航。解决了多个无人艇可能因为选择同一个目标点而产生冲突的问题,从而可以引导多个无人艇通过合作在避碰避障的前提下(56)对比文件周从航,李建兴,石宇静等.基于改进MAAC算法的多无人机自主路径规划.无线电工程.2023,全文.Wang, ZY.etc.Task Scheduling forDistributed AUV Network Target Huntingand Searching: An Energy-Efficient AoI-Aware DMAPPO Approach《.IEEE INTERNET OFTHINGS JOURNAL》.2023,第10卷(第9期),第8271-8285页.
-
公开(公告)号:CN117168468A
公开(公告)日:2023-12-05
申请号:CN202311452155.4
申请日:2023-11-03
Applicant: 安徽大学
IPC: G01C21/20
Abstract: 本发明公开了一种基于近端策略优化的多无人艇深度强化学习协同导航方法,对单个无人艇进行数学建模,确定无人艇水平面运动的运动学模型及动力学模型;将多无人艇多目标导航问题建模为马尔科夫决策过程,确定状态空间以及动作空间;根据多无人艇多目标导航的目标,建立考虑无人艇与障碍物发生碰撞情况以及无人艇与其余的无人艇发生碰撞情况的差分奖励函数;获取多个无人艇的状态信息,输入多智能体深度强化学习模型,得到多个无人艇的动作;采用训练后的多智能体深度强化学习模型进行多无人艇多目标导航。解决了多个无人艇可能因为选择同一个目标点而产生冲突的问题,从而可以引导多个无人艇通过合作在避碰避障的前提下实现多目标导航。
-
-