一种基于元强化学习的高光谱开放集领域泛化方法

    公开(公告)号:CN119418171A

    公开(公告)日:2025-02-11

    申请号:CN202411466041.X

    申请日:2024-10-21

    Abstract: 本发明属于模式识别技术领域,公开了一种基于元强化学习的高光谱开放集领域泛化方法。首先,为实现稳健的开放集识别策略学习,本发明使用背景像素模拟虚拟未知类,并使用元学习的情景模拟机制对源域中的开放集识别场景进行模拟。在情景模拟过程中,将开放集识别任务建模为内部马尔可夫决策过程,利用强化学习的反馈学习和策略优化机制,迭代优化开集识别策略。其次,为实现源域向未见目标域稳健的跨域知识迁移,本发明将跨任务知识归纳建模为外部马尔可夫决策过程,设计了不变风险奖励机制来鼓励智能体在不同的开放集识别任务中捕获跨任务共享知识。引入了Mamba作为记忆策略网络,利用其强大的上下文压缩能力实现了跨任务共享知识归纳。

    一种基于场景语言感知引导的多模态无人机目标检测框架

    公开(公告)号:CN119360243A

    公开(公告)日:2025-01-24

    申请号:CN202411395067.X

    申请日:2024-10-08

    Abstract: 本发明属于计算机视觉技术领域,公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先,将视觉‑语言预训练模型嵌入多模态目标检测框架中,提出了场景语言感知模块,利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次,通过条件参数生成模块根据当前场景和目标特征动态生成融合参数,通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后,设计了多模态动态解码器,建立了动态对称融合机制,通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合,并根据当前场景实时调整不同模态的重要性,将DETR的解码机制从单模态扩展到多模态,为多模态无人机目标检测提供了无需先验框的新范式。

    一种基于悲观评论家决策转换器的轨迹规划方法

    公开(公告)号:CN119337945A

    公开(公告)日:2025-01-21

    申请号:CN202411383629.9

    申请日:2024-09-30

    Abstract: 本发明公开了一种基于悲观评论家决策转换器的轨迹规划方法,具体为:1:采集工业机器人的历史轨迹数据;2:构建决策转换器网络、最大价值决策转换器策略网和悲观价值网络1和悲观价值网络2;并初始化这些网络参数;3:建立最大价值决策转换器策略网络和两个独立悲观价值网络对应的目标网络;并初始化这些目标网络;4:更新决策转换器网络参数;5:更新悲观价值网络参数;6:更新最大价值决策转换器策略网络参数;7:更新目标网络参数;8:重复执行步骤四~步骤七,直到达到最大迭代次数;9:通过最终得到的悲观价值网络输出动作的价值,引导最大价值决策转换器策略网络生成下一个时刻的最优轨迹。本发明提高了任务完成的效率与安全性。

    一种基于轴向注意力的UUV非合作目标跟踪方法

    公开(公告)号:CN118688807B

    公开(公告)日:2024-12-20

    申请号:CN202410706764.6

    申请日:2024-06-03

    Abstract: 本发明公开了一种基于轴向注意力的UUV非合作目标跟踪方法。本发明针对前视声呐观测的不可靠性、目标运动的不可预测性,构建带有记忆的一阶马尔可夫状态空间模型描述声呐观测下UUV非合作目标跟踪机理,并提出一种基于轴向注意力Transformer的非合作目标状态多步预测网络,用于描述非线性观测下,非合作目标相对声呐的复杂运动过程。针对观测的不稳定性及后验分布的未知性,基于Monte Carlo近似推断原理,利用该多步预测网络将目标观测状态空间中的采样粒子映射到目标预测状态空间,构建基于轴向注意力的目标跟踪方法,提高UUV非合作目标跟踪对不确定输入的适应性和鲁棒性。

    一种基于近端对抗约束策略搜索的离线强化学习方法

    公开(公告)号:CN119005289A

    公开(公告)日:2024-11-22

    申请号:CN202411024892.9

    申请日:2024-07-29

    Abstract: 本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作,作为策略约束的参考动作,提高策略约束效率;然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似,构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索,允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计,可以有效选择分布外动作,突破点‑点策略约束禁止选择分布外动作的决策性能限制,缩小学习策略与最优策略的性能差异。

    一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349B

    公开(公告)日:2024-07-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

    一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349A

    公开(公告)日:2024-04-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

    一种基于自适应动态窗口法的UUV三维避障规划方法

    公开(公告)号:CN117826819A

    公开(公告)日:2024-04-05

    申请号:CN202410004949.2

    申请日:2024-01-02

    Abstract: 本发明公开了一种基于自适应动态窗口法的UUV三维避障规划方法,构建了一种基于Tanhshrink函数的与目标距离相关的艏向评价函数,针对陷阱障碍物,设计了艏向评价函数的自适应调整策略;构建了一种与UUV巡航速度相关的速度评价函数,针对动态障碍物,设计了速度评价函数的自适应调整策略。与现有方法相比,本发明可基于自适应的动态窗口法进行自适应的UUV避障规划,有效提高了UUV轨迹的平滑性,有效提高了算法对复杂环境的适应性。

Patent Agency Ranking