一种基于深度强化学习的空战多意图策略自主生成方法

    公开(公告)号:CN116432030A

    公开(公告)日:2023-07-14

    申请号:CN202310378455.6

    申请日:2023-04-10

    Abstract: 本发明为了生成更好的空战多意图策略,提出一种基于深度强化学习的空战多意图策略自主生成方法。包括如下步骤:(1)针对空战意图构建基于深度强化学习的空战博弈框架;(2)提出时序近端策略优化(Temporal Proximal Policy Optimization,T‑PPO)算法,充分利用历史数据中有用信息生成策略;(3)提出基本‑对抗进阶式训练法进行意图策略生成模型训练,提供意图引导和增加训练的多样性;(4)大范围内选择初始状态,基于空战博弈框架生成空战数据,利用T‑PPO算法进行基本‑对抗进阶式训练更新模型,完成基于深度强化学习的空战意图策略自主生成。本发明提出的基于深度强化学习的空战多意图策略自主生成方法,能提升生成策略的胜率和效率并提高网络训练的速度,具有一定的有效性。

Patent Agency Ranking