Patent search ap:("中国矿业大学") AND inv:"程玉虎" Page 1

1.

发明公开
一种基于元强化学习的高光谱开放集领域泛化方法审中-实审

公开(公告)号：CN119418171A

公开(公告)日：2025-02-11

申请号：CN202411466041.X

申请日：2024-10-21

Applicant: 中国矿业大学

Inventor： 程玉虎 , 张威 , 王雪松

IPC: G06V10/82 , G06V10/50 , G06V10/58 , G06V10/77 , G06N3/045 , G06N3/092 , G06N3/096 , G06N3/0985 , G06N3/006 , G06V20/10

Abstract: 本发明属于模式识别技术领域，公开了一种基于元强化学习的高光谱开放集领域泛化方法。首先，为实现稳健的开放集识别策略学习，本发明使用背景像素模拟虚拟未知类，并使用元学习的情景模拟机制对源域中的开放集识别场景进行模拟。在情景模拟过程中，将开放集识别任务建模为内部马尔可夫决策过程，利用强化学习的反馈学习和策略优化机制，迭代优化开集识别策略。其次，为实现源域向未见目标域稳健的跨域知识迁移，本发明将跨任务知识归纳建模为外部马尔可夫决策过程，设计了不变风险奖励机制来鼓励智能体在不同的开放集识别任务中捕获跨任务共享知识。引入了Mamba作为记忆策略网络，利用其强大的上下文压缩能力实现了跨任务共享知识归纳。

2.

发明公开
一种基于场景语言感知引导的多模态无人机目标检测框架有权

公开(公告)号：CN119360243A

公开(公告)日：2025-01-24

申请号：CN202411395067.X

申请日：2024-10-08

Applicant: 中国矿业大学

Inventor： 王浩宇 , 刘晓敏 , 张威 , 王兆杰 , 王雪松 , 程玉虎 , 乔振壮 , 殷豪杰 , 曲世元

IPC: G06V20/17 , G06V10/25 , G06V10/82 , G06V10/764 , G06N3/0455 , G06N3/0475

Abstract: 本发明属于计算机视觉技术领域，公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先，将视觉‑语言预训练模型嵌入多模态目标检测框架中，提出了场景语言感知模块，利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次，通过条件参数生成模块根据当前场景和目标特征动态生成融合参数，通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后，设计了多模态动态解码器，建立了动态对称融合机制，通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合，并根据当前场景实时调整不同模态的重要性，将DETR的解码机制从单模态扩展到多模态，为多模态无人机目标检测提供了无需先验框的新范式。

3.

发明公开
一种基于悲观评论家决策转换器的轨迹规划方法有权

公开(公告)号：CN119337945A

公开(公告)日：2025-01-21

申请号：CN202411383629.9

申请日：2024-09-30

Applicant: 中国矿业大学

Inventor： 王雪松 , 张恒瑞 , 程玉虎

IPC: G06N3/0475 , G06N3/045 , G06N3/092 , G06N3/084 , G06F18/25

Abstract: 本发明公开了一种基于悲观评论家决策转换器的轨迹规划方法，具体为：1：采集工业机器人的历史轨迹数据；2：构建决策转换器网络、最大价值决策转换器策略网和悲观价值网络1和悲观价值网络2；并初始化这些网络参数；3：建立最大价值决策转换器策略网络和两个独立悲观价值网络对应的目标网络；并初始化这些目标网络；4：更新决策转换器网络参数；5：更新悲观价值网络参数；6：更新最大价值决策转换器策略网络参数；7：更新目标网络参数；8：重复执行步骤四～步骤七，直到达到最大迭代次数；9：通过最终得到的悲观价值网络输出动作的价值，引导最大价值决策转换器策略网络生成下一个时刻的最优轨迹。本发明提高了任务完成的效率与安全性。

4.

发明授权
一种基于解耦变分自编码器网络的无人驾驶环卫车目标检测方法有权

公开(公告)号：CN118196752B

公开(公告)日：2024-12-31

申请号：CN202410289768.9

申请日：2024-03-14

Applicant: 中国矿业大学

Inventor： 王雪松 , 吴世佳 , 程玉虎 , 张威 , 王浩宇 , 刘晓敏

IPC: G06V20/58 , G06V10/25 , G06V10/44 , G06V10/52 , G06V10/143 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/0464

Abstract: 本发明公开了一种基于解耦变分自编码器网络的无人驾驶环卫车目标检测方法，针对无人驾驶环卫车的多模态目标检测，首先，向特征金字塔网络添加横向连接，以平衡不同大小对象的检测要求；接着，多尺度特征输入到框建议模块，生成提议框和提议特征，将通过RoiAlign得到的ROI特征和提议特征建立一对一的交互关系，从而优化ROI特征；然后，设计了解耦变分自编码器，采用变分推断，通过最大化真实数据分布对数似然的证据下界建模全局数据分布，对红外和可见光图像的数据分布进行解耦，以从数据中捕获任务相关的分布信息；最后，将解耦变分自编码器的特征进行全局信息整合，然后输入到目标检测网络中，以进行多模态目标检测。

5.

发明授权
一种基于轴向注意力的UUV非合作目标跟踪方法

公开(公告)号：CN118688807B

公开(公告)日：2024-12-20

申请号：CN202410706764.6

申请日：2024-06-03

Applicant: 中国矿业大学

Inventor： 林常见 , 刘玉豪 , 王雪松 , 程玉虎 , 王浩宇 , 周淑燕 , 王国庆 , 马磊

IPC: G01S15/66

Abstract: 本发明公开了一种基于轴向注意力的UUV非合作目标跟踪方法。本发明针对前视声呐观测的不可靠性、目标运动的不可预测性，构建带有记忆的一阶马尔可夫状态空间模型描述声呐观测下UUV非合作目标跟踪机理，并提出一种基于轴向注意力Transformer的非合作目标状态多步预测网络，用于描述非线性观测下，非合作目标相对声呐的复杂运动过程。针对观测的不稳定性及后验分布的未知性，基于Monte Carlo近似推断原理，利用该多步预测网络将目标观测状态空间中的采样粒子映射到目标预测状态空间，构建基于轴向注意力的目标跟踪方法，提高UUV非合作目标跟踪对不确定输入的适应性和鲁棒性。

6.

发明公开
一种基于近端对抗约束策略搜索的离线强化学习方法有权

公开(公告)号：CN119005289A

公开(公告)日：2024-11-22

申请号：CN202411024892.9

申请日：2024-07-29

Applicant: 中国矿业大学

Inventor： 程玉虎 , 曹硕 , 王雪松

IPC: G06N3/092 , G06N3/045 , G06N3/084

Abstract: 本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作，作为策略约束的参考动作，提高策略约束效率；然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似，构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索，允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计，可以有效选择分布外动作，突破点‑点策略约束禁止选择分布外动作的决策性能限制，缩小学习策略与最优策略的性能差异。

7.

发明授权
一种基于安全互模拟度量的视觉强化学习方法有权

公开(公告)号：CN117933349B

公开(公告)日：2024-07-26

申请号：CN202410106823.6

申请日：2024-01-25

Applicant: 中国矿业大学

Inventor： 王雪松 , 王荣荣 , 程玉虎 , 王浩宇 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

8.

发明公开
一种基于元迁移梯度更新策略的高光谱图像分类方法有权

公开(公告)号：CN118038181A

公开(公告)日：2024-05-14

申请号：CN202410331617.5

申请日：2024-03-22

Applicant: 中国矿业大学

Inventor： 王浩宇 , 程玉虎 , 王雪松 , 张威 , 吴世佳 , 刘晓敏

IPC: G06V10/764 , G06V10/75 , G06V10/762 , G06V20/10 , G06N3/0455 , G06N3/096 , G06N3/094 , G06V10/82

Abstract: 本发明公开了一种基于元迁移梯度更新策略的高光谱图像分类方法。通过任务分布对齐策略构建了平衡的元任务簇，以解决不同领域之间由于类别关系差异而引起的任务分布错位问题。接着，利用领域投影头捕获与域相关的特定知识，确保共享特征嵌入模块能够专注于捕获两个域之间共享的域不变知识。最后，采用元迁移梯度更新策略来更新模型，聚焦于让模型从元迁移任务集合中归纳出适用于各类型元迁移任务的无偏知识，从而提升模型的泛化性能并优化元迁移学习效果。

9.

发明公开
一种基于安全互模拟度量的视觉强化学习方法有权

公开(公告)号：CN117933349A

公开(公告)日：2024-04-26

申请号：CN202410106823.6

申请日：2024-01-25

Applicant: 中国矿业大学

Inventor： 王雪松 , 王荣荣 , 程玉虎 , 王浩宇 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

10.

发明公开
一种基于自适应动态窗口法的UUV三维避障规划方法有权

公开(公告)号：CN117826819A

公开(公告)日：2024-04-05

申请号：CN202410004949.2

申请日：2024-01-02

Applicant: 中国矿业大学

Inventor： 林常见 , 王雪松 , 程玉虎 , 周淑燕 , 刘玉豪

IPC: G05D1/43 , G05D1/622

Abstract: 本发明公开了一种基于自适应动态窗口法的UUV三维避障规划方法，构建了一种基于Tanhshrink函数的与目标距离相关的艏向评价函数，针对陷阱障碍物，设计了艏向评价函数的自适应调整策略；构建了一种与UUV巡航速度相关的速度评价函数，针对动态障碍物，设计了速度评价函数的自适应调整策略。与现有方法相比，本发明可基于自适应的动态窗口法进行自适应的UUV避障规划，有效提高了UUV轨迹的平滑性，有效提高了算法对复杂环境的适应性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification