基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法

    公开(公告)号:CN118938988A

    公开(公告)日:2024-11-12

    申请号:CN202411003909.2

    申请日:2024-07-25

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法,包括:初始化环境;获取无人机初始状态信息;将初始状态信息输入策略网络得到动作信息,计算下一状态和外部奖励,再记录判断是否终止的结束标识,并一起存入经验回放池,从回放池中随机抽取一批元组样本,计算抽取样本的状态熵来得到内在奖励,合并为总奖励;利用总奖励来更新价值网络参数,通过策略梯度优化策略网络;定期更新目标策略网络和目标价值网络的参数,评估当前策略的表现。本发明引入状态熵作为内在奖励,显著提升了无人机在密集障碍环境中探索的效率,结合外部奖励和内在奖励,该方法使得无人机能够快速学习最佳路径,同时追求全局最优解。

    具有多传感器故障的模块化机器人输出反馈最优容错控制方法及系统

    公开(公告)号:CN118288291B

    公开(公告)日:2024-10-22

    申请号:CN202410566263.2

    申请日:2024-05-09

    Applicant: 安徽大学

    Abstract: 本发明涉及机器人容错控制技术领域,解决了随着模块化机器人中重构模块数量的增加,动态规划方法会引发“维数灾”问题,使得求解HJB方程变得更加困难的技术问题,尤其涉及一种具有多传感器故障的模块化机器人输出反馈最优容错控制方法,包括:引入低通滤波器,建立传感器故障与执行器故障之间的映射关系,并根据映射关系构建融合机器人系统状态和低通滤波器输出的增广系统;根据神经网络与机器人系统的输入/输出数据建立用以在线辨识机器人系统的动力学信息与传感器故障的联合输出型故障观测器。本发明所提出的方法适用于解决多种类型传感器故障系统的容错控制问题,能够达到满意的容错控制效果,满足应用需求,且可以减少设计成本。

    基于动作因果性评估的深度强化学习高效探索方法

    公开(公告)号:CN118886446A

    公开(公告)日:2024-11-01

    申请号:CN202411149185.2

    申请日:2024-08-21

    Applicant: 安徽大学

    Abstract: 本发明公开了基于动作因果性评估的深度强化学习高效探索方法,包括:第一阶段在不同的环境中,使用逆动态模型训练智能体的动作对环境的影响得到动作因果评估网络;根据动作因果评估网络,输入当前时刻状态和动作计算在每个动作对下一时刻环境状态变化的影响程度大小;设置一个阈值对智能体的动作进行筛选,得到智能体的最小动作空间和冗余动作空间;获取智能体环境信息,与最小动作空间共同输入深度强化学习模型,结合近端策略优化算法,输出智能体执行的动作并获取环境的反馈信息,直至训练结束;评估模型的性能,检查在不同的环境中是否收敛。本发明提出的方法兼顾高效性、灵活性和适应性,为智能体在复杂环境中的应用提供了有力支持。

    一种雾天场景下的海上小目标航拍图像识别模型训练方法

    公开(公告)号:CN117893879B

    公开(公告)日:2024-09-27

    申请号:CN202410078638.0

    申请日:2024-01-19

    Applicant: 安徽大学

    Abstract: 本发明公开了一种雾天场景下的海上小目标航拍图像识别模型训练方法,包括:结合现有的雾天成像模型,通过改变雾的厚度和亮度,对原始海上小目标航拍数据集进行加雾,模拟出各种场景下的雾天图像,建立雾天场景下的海上小目标航拍图像数据集;在YOLOv5网络结构模型的基础上设置小目标的检测层,构建雾天条件下的海上小目标航拍图像目标识别模型;基于WIOU以及Wasserstein距离的组合构建新的损失函数,不断调整WIOU以及Wasserstein距离的权重,并利用建立的数据集对模型进行训练。本发明解决了雾天场景下,海上小目标航拍图像识别模型的训练过程中出现的数据集缺乏、去雾效果差、检测精度低的问题,为准确、快速、稳定的雾天场景下海上小目标航拍图像检测模型训练奠定了基础。

    一种基于有偏选择池化的图像分类方法

    公开(公告)号:CN116630697B

    公开(公告)日:2024-04-05

    申请号:CN202310552011.X

    申请日:2023-05-17

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于有偏选择池化的图像分类方法,所述方法包括:数据预处理并定义模型,定义一组超参数[α1,α2,…,αk],初始化掩膜[β1,β2,…,βk]中的参数;定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;将训练集送入模型,进行前向传播,图像经过卷积层提取局部特征。本发明通过调整超参数来实现不同的特征提取目标,解决了传统图像分类中使用最大池化或者平均池化所带来的保留的信息不够准确等问题,提高了图像分类的准确性,同时本发明相较于最大值池化和平均池化而言更加灵活,可以更好的适应各种不同的数据特征和任务。

    一种基于有偏选择池化的图像分类方法

    公开(公告)号:CN116630697A

    公开(公告)日:2023-08-22

    申请号:CN202310552011.X

    申请日:2023-05-17

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于有偏选择池化的图像分类方法,所述方法包括:数据预处理并定义模型,定义一组超参数[α1,α2,...,αk],初始化掩膜[β1,β2,...,βk]中的参数;定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;将训练集送入模型,进行前向传播,图像经过卷积层提取局部特征。本发明通过调整超参数来实现不同的特征提取目标,解决了传统图像分类中使用最大池化或者平均池化所带来的保留的信息不够准确等问题,提高了图像分类的准确性,同时本发明相较于最大值池化和平均池化而言更加灵活,可以更好的适应各种不同的数据特征和任务。

    一种基于ST-Swin-T神经网络面向无人机自主着陆的场景图识别方法

    公开(公告)号:CN118447341B

    公开(公告)日:2024-10-01

    申请号:CN202410906142.8

    申请日:2024-07-08

    Applicant: 安徽大学

    Abstract: 本发明涉及无人机着陆识别技术领域,解决了传统方法无法适用于无人机面向紧急情况下实现自主着陆的技术问题,尤其涉及一种基于ST‑Swin‑T神经网络面向无人机自主着陆的场景图识别方法,包括:构建针对无人机着陆场景的数据集,并根据若干着陆场景类别将数据集分为多个安全等级;基于Swin‑T神经网络的骨干网络构建用于对无人机着陆的着陆场景图进行分类识别的识别模型ST‑Swin‑T;基于预训练模型对识别模型ST‑Swin‑T进行训练。本发明能够在面对紧急着陆场景时,通过直接检测下方的图像来判断能否降落,无需复杂计算或精确降落于特定点。并且显著提升了无人机的飞行安全性,同时为其自主学习识别着陆场景奠定了基础。

    一种基于时序任务持续强化学习的机械臂抓取策略优化方法

    公开(公告)号:CN118578396A

    公开(公告)日:2024-09-03

    申请号:CN202410831223.6

    申请日:2024-06-26

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于时序任务持续强化学习的机械臂抓取策略优化方法,包括步骤1:收集机械臂在执行到达任务时的机械臂的状态向量及目标位置;步骤2:构建深度强化学习的神经网络模型;步骤3:根据机械臂在执行序列任务的到达任务时的机械臂的状态向量及目标位置训练网络模型,得到模型Ⅰ;步骤4:机械臂执行模型Ⅰ,当到达目标位置时,进行抓取任务的训练,得到模型Ⅱ;步骤5:使用模型Ⅰ对模型Ⅱ进行蒸馏得到模型Ⅲ,得到优化后的机械臂抓取策略;步骤6:评估模型Ⅲ的性能,检查其在不同任务场景上的表现步骤以确认模型Ⅲ是否收敛。本发明在时序任务持续强化学习的机械臂抓取中表现出更快的收敛速度和更短的抓取时间。

    基于近端策略优化的多无人艇深度强化学习协同导航方法

    公开(公告)号:CN117168468A

    公开(公告)日:2023-12-05

    申请号:CN202311452155.4

    申请日:2023-11-03

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于近端策略优化的多无人艇深度强化学习协同导航方法,对单个无人艇进行数学建模,确定无人艇水平面运动的运动学模型及动力学模型;将多无人艇多目标导航问题建模为马尔科夫决策过程,确定状态空间以及动作空间;根据多无人艇多目标导航的目标,建立考虑无人艇与障碍物发生碰撞情况以及无人艇与其余的无人艇发生碰撞情况的差分奖励函数;获取多个无人艇的状态信息,输入多智能体深度强化学习模型,得到多个无人艇的动作;采用训练后的多智能体深度强化学习模型进行多无人艇多目标导航。解决了多个无人艇可能因为选择同一个目标点而产生冲突的问题,从而可以引导多个无人艇通过合作在避碰避障的前提下实现多目标导航。

    一种基于时序任务持续强化学习的机械臂抓取策略优化方法

    公开(公告)号:CN118578396B

    公开(公告)日:2024-11-08

    申请号:CN202410831223.6

    申请日:2024-06-26

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于时序任务持续强化学习的机械臂抓取策略优化方法,包括步骤1:收集机械臂在执行到达任务时的机械臂的状态向量及目标位置;步骤2:构建深度强化学习的神经网络模型;步骤3:根据机械臂在执行序列任务的到达任务时的机械臂的状态向量及目标位置训练网络模型,得到模型Ⅰ;步骤4:机械臂执行模型Ⅰ,当到达目标位置时,进行抓取任务的训练,得到模型Ⅱ;步骤5:使用模型Ⅰ对模型Ⅱ进行蒸馏得到模型Ⅲ,得到优化后的机械臂抓取策略;步骤6:评估模型Ⅲ的性能,检查其在不同任务场景上的表现步骤以确认模型Ⅲ是否收敛。本发明在时序任务持续强化学习的机械臂抓取中表现出更快的收敛速度和更短的抓取时间。

Patent Agency Ranking