一种基于困难正样本生成的目标跟踪方法

    公开(公告)号:CN108596958A

    公开(公告)日:2018-09-28

    申请号:CN201810443211.0

    申请日:2018-05-10

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于困难正样本生成的目标跟踪方法,针对训练数据中的每一个视频,利用变分自编码器进行对应流型的学习即正样本生成网络,根据编码后的输入图像,微调编码,生成大量正样本;将正样本输入到困难正样本转换网络,训练一个智能体来学习用一个背景图像块来遮挡目标物体,智能体不断的进行包围盒的调整使得样本变的难以识别,达到困难正样本生成的目的,输出为被遮挡的困难正样本;基于生成的困难正样本,训练孪生网络用于目标图像块与候选图像块的匹配,来完成当前帧目标的定位,直至整个视频处理完成。本发明基于困难正样本生成的目标跟踪方法,直接从数据中去学习目标的流型分布情况,可得到大量多样的正样本。

    一种基于状态空间的事件流手语翻译方法

    公开(公告)号:CN119600683A

    公开(公告)日:2025-03-11

    申请号:CN202411665809.6

    申请日:2024-11-20

    Applicant: 安徽大学

    Inventor: 王逍 戎耀 江波

    Abstract: 本发明公开了一种基于状态空间的事件流手语翻译方法,属于手语翻译技术领域,包括以下步骤:输入事件流,将其转化为事件图像,事件图像输入Mamba状态空间模块提取局部‑全局的视觉特征表示;将Mamba状态空间模块最后一层的CNN模块的局部空间特征表示FC与最后一层的全局状态空间特征表示FM输入到Temporal Conv模块中,进行时序特征融合;接着,将融合后的时序特征送入到手语嵌入模块中,进行视觉特征到语言特征的对齐;然后,使用提示模块构造出提示句子,LLM语言模块生成手语语句。本发明通过引入CNN模块和Mamba状态空间模块,能够有效提取数据的局部细节纹理信息同时实现捕捉到数据远距离的依赖关系,使得模型全面充分的提取数据信息,提升模型的性能。

    一种基于多尺度知识蒸馏的事件跟踪方法

    公开(公告)号:CN118898705A

    公开(公告)日:2024-11-05

    申请号:CN202311596776.X

    申请日:2023-11-28

    Applicant: 安徽大学

    Inventor: 王逍 王世傲 江波

    Abstract: 本发明公开了一种基于多尺度知识蒸馏的事件跟踪方法,属于事件相机技术领域,包括以下步骤:S1、输入双模态数据,训练教师网络;其中,双模态数据包括RGB帧和事件流;S2、输入单模态事件流数据,训练学生网络,其中,单模态事件流数据包括事件流;通过三层知识蒸馏利用教师网络的参数来监督和指导学生网络的学习。通过上述方式,本发明利用多层知识蒸馏的方式来对学生网络进行多层监督,可提高目标学生网络的鲁棒性。学生网络的输入是单模态事件流数据,通过教师网络的指导,在高速推理速度的情况下实现性能的提升。利用Transformer骨干网络建立时序信息的远距离依赖关系,深入挖掘视频帧的深层次时空信息,得到更好的特征表达。

    基于提示微调预训练大模型的行人属性识别方法

    公开(公告)号:CN116259075A

    公开(公告)日:2023-06-13

    申请号:CN202310081570.7

    申请日:2023-01-16

    Applicant: 安徽大学

    Abstract: 一种基于提示微调预训练大模型的行人属性识别方法,属于计算机视觉技术领域,解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。本发明采用CLIP的视觉和文本编码器提取图像特征和属性特征,通过多模态Transformer模块对两个模态特征融合后,经过前馈网络得到预测结果,通过将行人属性识别问题建模为视觉语言融合问题,使用预训练的视觉语言大模型作为主干网络,提取模态间联系更好的视觉和文本特征,再通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息,并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力,模型实用性更强。

    一种结合上下文信息的跨模态行人检测方法

    公开(公告)号:CN110826392B

    公开(公告)日:2023-03-10

    申请号:CN201910875343.5

    申请日:2019-09-17

    Applicant: 安徽大学

    Abstract: 本发明公开了一种结合上下文信息的跨模态行人检测方法,将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域;将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点构建图模型;采用门循环单元GRU进行上下文信息的传递更新,得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果;使用最终的节点表示来送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,实现行人检测。将深度学习应用到了行人检测领域中,达到较好的检测效果;结合单模态图像上下文信息和跨模态图像上下文信息,使得特征具有更加丰富的信息,帮助分类器更好的分类以及定位。

    一种基于困难正样本生成的目标跟踪方法

    公开(公告)号:CN108596958B

    公开(公告)日:2021-06-04

    申请号:CN201810443211.0

    申请日:2018-05-10

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于困难正样本生成的目标跟踪方法,针对训练数据中的每一个视频,利用变分自编码器进行对应流型的学习即正样本生成网络,根据编码后的输入图像,微调编码,生成大量正样本;将正样本输入到困难正样本转换网络,训练一个智能体来学习用一个背景图像块来遮挡目标物体,智能体不断的进行包围盒的调整使得样本变的难以识别,达到困难正样本生成的目的,输出为被遮挡的困难正样本;基于生成的困难正样本,训练孪生网络用于目标图像块与候选图像块的匹配,来完成当前帧目标的定位,直至整个视频处理完成。本发明基于困难正样本生成的目标跟踪方法,直接从数据中去学习目标的流型分布情况,可得到大量多样的正样本。

    自适应关键帧挖掘和时空图学习引导的多模态多目标跟踪方法

    公开(公告)号:CN120070506A

    公开(公告)日:2025-05-30

    申请号:CN202510241766.7

    申请日:2025-03-03

    Applicant: 安徽大学

    Abstract: 本发明公开一种自适应关键帧挖掘和时空图学习引导的多模态多目标跟踪方法,获取视频段的所有帧图像,将同一帧图像对应的可见光图像和热红外图像输入特征融合模块,生成嵌入;利用交叉注意力进行多模态间信息的融合,得到多模态融合特征;通过关键帧提取模块对视频进行自适应视频分段;关键帧提取模块基于强化学习方法,在学习过程中不断迭代最优的分段策略和最优奖励得分;将自适应分好的视频序列重复输入帧内特征融合模块模块和SUSHI块得到最终的跟踪结果。本发明利用热红外图弥补单模态信息的不足,利用强化学习自适应进行视频分段解决IDS问题;利用SUSHI模块挖掘帧间目标的时间关系,利用IFF模块挖掘帧内目标间的空间关系,进一步解决遮挡、相似外观问题,使得跟踪效果得到提升。

    一种事件识别方法、系统、设备及介质

    公开(公告)号:CN116740605A

    公开(公告)日:2023-09-12

    申请号:CN202310671246.0

    申请日:2023-06-06

    Applicant: 安徽大学

    Inventor: 王逍 袁程果 江波

    Abstract: 本发明涉及事件相机技术领域,具体涉及一种事件识别方法包括:获取待识别事件流;预处理得到所述待识别事件流对应的事件帧,预处理得到所述待识别事件流对应的图数据;构建双模态融合网络初始模型;提取事件帧的时空特征,及图数据的全局表征,并将所述时空特征和全局表征进行拼接融合,以使所述双模态融合网络初始模型学习双模态的统一特征,以获取训练完成的双模态融合网络模型;利用双模态融合网络模型进行事件识别。本发明通过构建双模态融合网络,能够更好的挖掘双模态的有效的原始信息,学习双模态数据的统一特征,通过将事件流转化为事件帧和图数据,有效的保留了原始信息,通过将时空特征和全局表征拼接融合来提高事件识别的性能。

    一种基于时空线索的跨模态视频显著性检测方法

    公开(公告)号:CN109034001B

    公开(公告)日:2021-06-25

    申请号:CN201810725499.0

    申请日:2018-07-04

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于时空线索的跨模态视频显著性检测方法,获取一对匹配的多模态视频序列帧对,使用SLIC算法对其超像素分割;计算超像素分割图的每个像素点的显著性,选择相似度大的节点作为前景点;通过结合上一阶段的显著值、可见光和热红外两个模态的权重构造显著图;对比相邻前后两帧的显著值计算其空间位置最大重叠比继而找到相邻帧之间的固有关系,得到基于时空的多模态视频显著性结果;利用拉格朗日数乘法对模型进行求解并得出结果。本发明从信息融合的角度出发,通过融合多个互补的视觉模态数据克服低光照、雾霾和杂乱背景等因素的影响,引入了每种模式的权重来表示可靠性,以实现不同源数据的自适应和协同融合。

Patent Agency Ranking