-
公开(公告)号:CN119337945B
公开(公告)日:2025-04-11
申请号:CN202411383629.9
申请日:2024-09-30
Applicant: 中国矿业大学
IPC: G06N3/0475 , G06N3/045 , G06N3/092 , G06N3/084 , G06F18/25
Abstract: 本发明公开了一种基于悲观评论家决策转换器的轨迹规划方法,具体为:1:采集工业机器人的历史轨迹数据;2:构建决策转换器网络、最大价值决策转换器策略网和悲观价值网络1和悲观价值网络2;并初始化这些网络参数;3:建立最大价值决策转换器策略网络和两个独立悲观价值网络对应的目标网络;并初始化这些目标网络;4:更新决策转换器网络参数;5:更新悲观价值网络参数;6:更新最大价值决策转换器策略网络参数;7:更新目标网络参数;8:重复执行步骤四~步骤七,直到达到最大迭代次数;9:通过最终得到的悲观价值网络输出动作的价值,引导最大价值决策转换器策略网络生成下一个时刻的最优轨迹。本发明提高了任务完成的效率与安全性。
-
公开(公告)号:CN119337945A
公开(公告)日:2025-01-21
申请号:CN202411383629.9
申请日:2024-09-30
Applicant: 中国矿业大学
IPC: G06N3/0475 , G06N3/045 , G06N3/092 , G06N3/084 , G06F18/25
Abstract: 本发明公开了一种基于悲观评论家决策转换器的轨迹规划方法,具体为:1:采集工业机器人的历史轨迹数据;2:构建决策转换器网络、最大价值决策转换器策略网和悲观价值网络1和悲观价值网络2;并初始化这些网络参数;3:建立最大价值决策转换器策略网络和两个独立悲观价值网络对应的目标网络;并初始化这些目标网络;4:更新决策转换器网络参数;5:更新悲观价值网络参数;6:更新最大价值决策转换器策略网络参数;7:更新目标网络参数;8:重复执行步骤四~步骤七,直到达到最大迭代次数;9:通过最终得到的悲观价值网络输出动作的价值,引导最大价值决策转换器策略网络生成下一个时刻的最优轨迹。本发明提高了任务完成的效率与安全性。
-