-
公开(公告)号:CN118818976A
公开(公告)日:2024-10-22
申请号:CN202410800970.3
申请日:2024-06-20
Applicant: 东北大学
IPC: G05B13/04
Abstract: 本发明提供一种基于策略重要性识别和值函数矫正的机器人奔跑控制方法,涉及机器人控制技术领域。本发明使用当前策略的值函数与行为策略的值函数的差代替选择策略的标准;采用策略重要性对策略进行加权评估,即面对不同的策略时,对每种策略进行动态评估,选取一个对长期回报最优的动作;采用Q函数协同矫正的方式来计算目标Q值,进而对当前策略进行多方面的评估。本发明的方法能有效缓解由OOD引起的高估问题,提高智能体在真实环境下的表现性能以及在新环境下的稳定性和鲁棒性,使智能体能够处理更复杂的机器人奔跑任务,如快速变速、急转弯和跳跃等,提高了机器人的整体任务执行能力。
-
公开(公告)号:CN118674001A
公开(公告)日:2024-09-20
申请号:CN202410797522.2
申请日:2024-06-20
Applicant: 东北大学
IPC: G06N3/092 , G06N3/042 , G06N3/0464 , G06N5/04
Abstract: 本发明提供一种融合图卷积与大语言模型的状态动作关系强化学习方法,涉及强化学习技术领域,通过结合GCN和LLM的强力特性——对空间信息处理和自然语言理解的双重优势,深入学习和内化环境中的复杂空间关系以及状态转移中的时间序列动态,利用GCN捕捉状态间的复杂空间结构,以及利用LLM处理和生成基于历史行为的时间序列数据,为RL智能体提供更准确的环境预测和策略规划工具,提升在复杂交互环境中的表现。GCN负责揭示状态之间的空间相互作用,而LLM则解析长期依赖和模式,提供连贯的决策支持,为RL智能体提供更准确的环境预测和策略规划工具,提升在复杂交互环境中的表现。
-