一种强化学习的训练方法及相关装置
Abstract:
本申请提供了一种强化学习的训练方法及相关装置,该方法包括:根据多个站点的动作,确定第一回报值,第一回报值为多个站点中第一站点的回报值,第一回报值用于第一站点进行强化学习训练;向第一站点发送第一回报值。可以看出,通过根据多个站点的动作确定回报值,使得回报值的计算可以结合用户间的相互影响,提高了回报值的准确性,进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。本申请可应用于EHT,或Wi‑Fi7,或Wi‑Fi 8等WLAN系统。
Patent Agency Ranking
0/0