基于强化学习TD3算法的异构无线网络垂直切换方法
Abstract:
本发明专利公开了基于强化学习TD3算法的异构无线网络垂直切换方法,具体涉及通讯技术领域。包括如下步骤:采用熵权法计算网络状态参数的权重,构造奖励函数;初始化策略网络以及两个估计网络,对上述网络对应的目标网络初始化,并初始化经验池;演员当前网络根据网络状态参数做出切换决策,求得奖励值;采用梯度下降法训练评论家当前网络,采用梯度上升法训练演员当前网络,更新演员目标网络参数和评论家目标网络参数;在每个决策时刻进行S4‑S5的操作步骤,训练更新网络参数;根据训练好的策略网络来确定最优的切换策略。采用本发明技术方案解决了深度强化学习汇总网络参数状态动作值过高估计的问题,可用于快速选出最优切换决策。
Public/Granted literature
Patent Agency Ranking
0/0