一种离线元强化学习的上下文分布偏移缓解方法及系统

    公开(公告)号:CN117725983A

    公开(公告)日:2024-03-19

    申请号:CN202311721370.X

    申请日:2023-12-14

    Abstract: 本发明提出一种离线元强化学习的上下文分布偏移缓解方法,包括:构建离线元强化学习的模型,基于该模型的行为策略采集训练任务的上下文信息,以该训练任务的上下文信息和该训练任务的任务编码,训练该模型的上下文编码器和元策略;其中,训练该上下文编码器时,最大化该任务编码和该训练任务的互信息,并最小化该任务编码和该行为策略的互信息;基于该模型的探索策略,以该上下文编码器和该元策略执行目标任务。本发明还提出一种离线元强化学习的上下文分布偏移缓解系统,以及一种用于实现离线元强化学习的上下文分布偏移缓解的数据处理装置。

    一种多任务强化学习方法及系统
    2.
    发明公开

    公开(公告)号:CN117829250A

    公开(公告)日:2024-04-05

    申请号:CN202311695347.8

    申请日:2023-12-11

    Abstract: 本发明提出一种多任务强化学习方法,包括:以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。本发明还提出一种多任务强化学习系统,以及一种用于实现多任务强化学习的数据处理装置。

Patent Agency Ranking