-
公开(公告)号:CN118081773B
公开(公告)日:2024-08-20
申请号:CN202410487776.4
申请日:2024-04-23
Applicant: 厦门大学
IPC: B25J9/16
Abstract: 本发明提供一种基于综合损失的演员评论家算法的机器人控制方法,包括:利用神经网络技术构建机器人运动的策略网络和价值评估网络;初始化网络模型参数;构建综合损失函数,所述综合损失包括正则化项、动态的裁剪双Q学习,并通过一差异函数检测估计误差的类型与大小来动态调整正则化项和动态的裁剪双Q学习的参数,使其朝着消除估计误差的方向更新;根据综合损失函数训练价值评估网络,并训练机器人运动的策略网络;判断机器人策略网络是否收敛至预期值,若是,则将机器人的多个传感器信息作为当前状态输入到策略网络,输出机器人的动作控制机器人的关节值和速度;否则,继续训练直至收敛至预期值。
-
公开(公告)号:CN118081773A
公开(公告)日:2024-05-28
申请号:CN202410487776.4
申请日:2024-04-23
Applicant: 厦门大学
IPC: B25J9/16
Abstract: 本发明提供一种基于综合损失的演员评论家算法的机器人控制方法,包括:利用神经网络技术构建机器人运动的策略网络和价值评估网络;初始化网络模型参数;构建综合损失函数,所述综合损失包括正则化项、动态的裁剪双Q学习,并通过一差异函数检测估计误差的类型与大小来动态调整正则化项和动态的裁剪双Q学习的参数,使其朝着消除估计误差的方向更新;根据综合损失函数训练价值评估网络,并训练机器人运动的策略网络;判断机器人策略网络是否收敛至预期值,若是,则将机器人的多个传感器信息作为当前状态输入到策略网络,输出机器人的动作控制机器人的关节值和速度;否则,继续训练直至收敛至预期值。
-