基于对抗架构的强化学习方法
    71.
    发明公开

    公开(公告)号:CN115115065A

    公开(公告)日:2022-09-27

    申请号:CN202210810777.9

    申请日:2022-07-11

    Abstract: 本发明公开了一种基于对抗架构的强化学习方法,本发明相比传统的离散强化学习算法,我们的方法引入对抗架构和目标神经网络。对抗架构使得算法无须直接对动作价值函数Q进行预测,而是可以将该价值函数分解为状态价值函数V(s)和优势函数A(s,a)之和。这种架构可以增强价值函数预测的准确性,并且对于动作选择造成的价值函数变化更加敏感,可以加速算法的收敛。而使用目标网络作为目标价值函数的评估网络,有效降低了对于动作价值函数预测过的估计风险,使得价值函数的预测更加准确,提升了算法的鲁棒性。

    一种针对拥挤异步大规模MIMO通信系统的随机接入方法

    公开(公告)号:CN114845418A

    公开(公告)日:2022-08-02

    申请号:CN202210246080.3

    申请日:2022-03-14

    Abstract: 一种针对拥挤异步大规模MIMO通信系统的随机接入方法,用户随机地选择接入资源并把随机接入请求发送至基站;然后,基站估计选择当前时域的活跃用户数以及定时偏移,随后估计用户信道信息并广播预编码随机接入响应;根据接收到的预编码随机接入响应信息,用户判断自己是否被基站成功检测,且未被成功检测用户重新发起随机接入请求;最后,基站再次广播预编码随机接入响应。与现有方案相比,本发明使用了一种新型的定时偏移估计方法,其能够在保证时偏估计准确度的同时提高系统吞吐量。

    基于模型的权值组合规划值扩展的方法

    公开(公告)号:CN114692890A

    公开(公告)日:2022-07-01

    申请号:CN202111598164.5

    申请日:2021-12-24

    Abstract: 本发明公开了一种基于模型的权值组合规划值扩展的方法,包含如下步骤:创建并行的执行单元,创建策略网络,并行的执行单元使用策略网络的当前策略与模拟环境交互,采集一整幕经验数据;将一整幕经验数据存入策略网络的缓存组件中;策略网络从缓存组件中取出定量的经验数据;待策略网络对定量的经验数据都进行评估后,通过策略梯度的方法更新策略网络的当前策略,获得新策略;待并行的执行单元与模拟环境进行新一轮交互时,无需等待策略网络进行策略更新,直接同步新策略即可。我们的方法结合了Impala架构,引入内部奖励值,同时对展开值H进行权值组合。不仅提高了算法的样本效率,同时大幅提高了方法收集数据的效率,提升了学习速度。

    低信噪比环境中物联网射频指纹的识别方法

    公开(公告)号:CN114598518A

    公开(公告)日:2022-06-07

    申请号:CN202210205323.9

    申请日:2022-03-02

    Abstract: 本发明公开了一种低信噪比环境中物联网射频指纹的识别方法,包括以下步骤:采集若干I/Q信号作为样本信号,构建DSLN架构,并初始化DSLN架构的参数;根据样本信号,采用最小化交叉熵误差的梯度下降算法对初始化后的DSLN架构进行训练,获取射频指纹识别器;采集待识别I/Q信号,并将其输入至射频指纹识别器,得到物联网射频指纹识别结果。本发明提出了一种低信噪比环境中物联网射频指纹的识别方法,解决了在低信噪比环境中,现有技术的射频指纹识别方法的性能会显著下降的问题。本发明提出了一种DSLN架构,能够提高在低信噪比环境中对设备识别的准确度,同时还能大幅度地减少运行的时间,提高了工作效率。

    一种基于深度学习的数字信号调制识别方法

    公开(公告)号:CN114584441A

    公开(公告)日:2022-06-03

    申请号:CN202210205322.4

    申请日:2022-03-02

    Abstract: 本发明公开了一种基于深度学习的适用于不同多径信道环境的数字信号调制识别方法。包括以下步骤:OFDM发射机产生多载波数字信号,并将信号输入多径衰落信道;OFDM接收机接收不同多径信道下的传输信号;对不同多径信道下的传输信号进行信号预处理;构建RSN‑MI神经网络,并对其进行训练;将预处理后的数据输入RSN‑MI神经网络,得到数字信号调制识别结果。本发明具有更好的识别精度,同时对于不同信号环境中的接收数据具有鲁棒性,大大减少了网络的训练数目。

    基于并行架构的内在奖励强化学习方法

    公开(公告)号:CN114266360A

    公开(公告)日:2022-04-01

    申请号:CN202111598134.4

    申请日:2021-12-24

    Abstract: 本发明公开了一种基于并行架构的内在奖励强化学习方法,包含如下步骤:执行模块与模拟环境交互,获取一整幕经验数据并存入缓存组件;同步学习模块的最近更新的策略;取出定量的经验数据进行评估,获得奖励值;对经验数据的状态价值函数进行估计,获得内部状态价值函数与外部状态价值函数;处理内部状态价值函数与外部状态价值函数,获得总状态价值函数并改写成近似状态价值函数;外部的智能体对预测网络的参数进行优化,并更新策略网络的当前策略,获得新策略;执行模块更新新策略。本发明解决了现有技术中价值函数估计不准、收敛到局部最优策略的缺陷,避免了优化结果出现偏差的问题,具有更高的单位时隙吞吐率、更好的性能和更快的学习速度。

    一种天线信号的处理装置
    77.
    发明公开

    公开(公告)号:CN113659314A

    公开(公告)日:2021-11-16

    申请号:CN202111126948.8

    申请日:2021-09-26

    Abstract: 本发明涉及信号处理技术领域,且公开了一种天线信号的处理装置,包括底座装置,底座装置外表面上侧固定连接有支撑板,支撑板外表面上侧设置有显示屏,支撑板外表面上侧设置有接收装置,接收装置外表面一侧设置有天线装置,底座装置包括底座板,底座板外表面上侧固定连接有装置管,装置管外表面一侧设置有螺纹杆,螺纹杆一端设置有活动槽板,活动槽板外表面一侧固定连接有限位杆。该天线信号的处理装置,当天线装置一端与活动管板插接时,使得天线装置一端与按压杆一端接触,使得按压杆带动活动杆运动,当活动管板外表面一侧与天线装置内壁接触时,插杆与固定杆插接,使得天线装置固定,从而实现了对于不同规格的天线装置进行替换使用的效果。

    一种基于Nash Q-Learning的多智能异构网络选择方法

    公开(公告)号:CN113242589A

    公开(公告)日:2021-08-10

    申请号:CN202110229667.9

    申请日:2021-03-02

    Abstract: 一种基于Nash Q‑Learning的多智能异构网络选择方法,在该方法中,网络和分属于不同业务类型的用户朝目标区域移动,各个用户根据候选网络的覆盖情况和自身的业务需求通过基于NashQ‑Learning的方法选择合适的网络。本发明在Nash Q‑Learning算法的回报函数中同时考虑了用户侧和网络侧的性能,改进了回报函数的设置,将用户侧的时延和传输速率需求和网络侧的负载均衡需求综合考虑作为Nash Q‑Learning中即时回报的相关参数,可以根据不同业务类型的用户的不同需求选择合适的网络,在满足用户需求的同时控制三个网络的负载均衡度,充分利用异构无线网络的资源。

Patent Agency Ranking