一种基于涌现混合专家模型的多任务强化学习方法

    公开(公告)号:CN119623566A

    公开(公告)日:2025-03-14

    申请号:CN202411723421.7

    申请日:2024-11-28

    Abstract: 本发明公开了一种基于涌现混合专家模型的多任务强化学习方法,包括以下步骤:构建多任务强化学习网络,所述多任务强化学习网络包括若干个前馈神经网络,每个前馈神经网络前面连接一个路由网络;对每个前馈神经网络进行聚类分析,均分为若干个专家模块;基于策略梯度下降方法对每个路由网络进行训练,并更新对应专家模块的参数;选取多任务学习环境中的实验任务;对于每个实验任务,基于训练后的路由网络激活对应的专家模块进行解耦处理,完成多任务强化学习。本发明为多任务学习提供了高效稳定的优化策略,有效缓解了多任务学习中参数共享与任务之间相互干扰的难题。

    一种移动对象的定位方法、装置、电子设备及存储介质

    公开(公告)号:CN113096182A

    公开(公告)日:2021-07-09

    申请号:CN202110236385.1

    申请日:2021-03-03

    Inventor: 焦继超 王晨旭

    Abstract: 本发明实施例提供了一种移动对象的定位方法、装置、电子设备及存储介质,应用于计算机技术领域,该方法包括当需要对移动对象进行定位时,获取目标图像和参考图像;确定参考图像中的静态物体区域和动态物体区域;从静态物体区域,确定多个第一特征点;利用各第一特征点的像素坐标以及对应的目标特征点的像素坐标,确定移动对象当前时刻所处位置的第一空间坐标;从动态物体区域,确定多个第二特征点;计算各个第二特征点对应的目标特征点的预测坐标;筛选预测坐标与像素坐标的差值在预设范围内的目标特征点,作为补充特征点;确定移动对象当前时刻所处位置的第二空间坐标,作为移动对象的定位结果。可以提高移动对象的定位精度。

    一种协作与竞争场景下的可泛化智能体生成方法

    公开(公告)号:CN119558343A

    公开(公告)日:2025-03-04

    申请号:CN202411713024.1

    申请日:2024-11-27

    Abstract: 本发明公开了一种协作与竞争场景下的可泛化智能体生成方法,包括:构建多样性策略池;选取一个子环境,提取团队智能体的策略网络参数,并赋值给学习者;采用多智能体强化学习算法对学习者的策略网络参数进行优化更新,获得学习者的第一策略网络参数;构建回合记忆库,对队友和对手的观测数据进行视角对齐转换;在优化更新过程中,基于学习者观测特征,从回合记忆库中检索与学习者最匹配的观测数据;对检索到的观测数据进行位置编码处理后,基于超网络生成学习者的第二策略网络参数;结合第一策略网络参数和第二策略网络参数,获得优化后的学习者策略网络参数。本发明智能体的设定能够在当前环境下与未知的队友和对手进行有效的协作与竞争。

Patent Agency Ranking