-
公开(公告)号:CN120070506A
公开(公告)日:2025-05-30
申请号:CN202510241766.7
申请日:2025-03-03
Applicant: 安徽大学
IPC: G06T7/246 , G06V10/40 , G06V10/80 , G06V10/82 , G06V20/40 , G06N3/045 , G06N3/092 , G06N3/042 , G06N3/0464
Abstract: 本发明公开一种自适应关键帧挖掘和时空图学习引导的多模态多目标跟踪方法,获取视频段的所有帧图像,将同一帧图像对应的可见光图像和热红外图像输入特征融合模块,生成嵌入;利用交叉注意力进行多模态间信息的融合,得到多模态融合特征;通过关键帧提取模块对视频进行自适应视频分段;关键帧提取模块基于强化学习方法,在学习过程中不断迭代最优的分段策略和最优奖励得分;将自适应分好的视频序列重复输入帧内特征融合模块模块和SUSHI块得到最终的跟踪结果。本发明利用热红外图弥补单模态信息的不足,利用强化学习自适应进行视频分段解决IDS问题;利用SUSHI模块挖掘帧间目标的时间关系,利用IFF模块挖掘帧内目标间的空间关系,进一步解决遮挡、相似外观问题,使得跟踪效果得到提升。
-
公开(公告)号:CN118692632A
公开(公告)日:2024-09-24
申请号:CN202410705138.5
申请日:2024-06-03
Applicant: 安徽大学 , 安徽中医药大学第一附属医院(安徽省中医院) , 安徽医科大学
IPC: G16H30/00 , G16H15/00 , G06F18/24 , G06F18/214 , G06N3/0455 , G06N3/0464 , G06N3/0895 , G06F17/16 , G06F17/18
Abstract: 本发明公开一种基于中文大语言模型的医学影像质量控制方法,先使用基于自监督学习的掩码自编码器对视觉编码器进行预训练,使用包含标签的医学影像对模型进行微调,将医学影像输入到预训练的视觉编码器中,得到视觉特征,将影像描述作为文本提示输入基于中文大语言模型的文本编码器中,得到文本特征,将两个特征投射为相同尺寸再进行拼接,得到最终特征,将最终特征输入到使用高效微调方法(LoRA)的中文大语言模型中,得到质量控制报告,进行实体提取,再对实体进行编码,计算其与真实标签编码之间的距离,采用对比学习进行微调。本发明能够用于对2D和3D医学影像进行质量控制。
-
公开(公告)号:CN118691643A
公开(公告)日:2024-09-24
申请号:CN202410704578.9
申请日:2024-06-03
Applicant: 安徽大学
IPC: G06T7/246 , G06T7/10 , G06V10/77 , G06V10/764 , G06V10/40 , G06N3/0455 , G06N5/01 , G06F17/18
Abstract: 本发明公开了基于RGB‑事件的自适应删插帧的高效视觉跟踪方法,属于事件相机技术领域,包括以下步骤:输入数据;特征提取和关系建模;跟踪头定位目标边界框;自适应的决策模块:将映射层的token embeddings、Transformer编码层的特征、跟踪头的目标边界框拼接在一起输入到决策模块中,得到相应的决策,决策分为三类:不操作,删帧,插帧。通过上述方式,本发明设计了自适应决策模块,通过决策模块的输出,可以自适应地选择RGB数据或者事件流数据作为模型的输入。本发明使得模型能够充分利用不同模态数据的优势,使模型更加灵活地应对不同情况,从而提高跟踪的准确性、稳定性和效率性。
-
公开(公告)号:CN118172706A
公开(公告)日:2024-06-11
申请号:CN202410421554.2
申请日:2024-04-09
Applicant: 安徽大学
IPC: G06V20/40 , G06V10/44 , G06V10/82 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于空间‑立体融合的事件流区分识别方法,属于事件相机技术领域,事件流利用双流框架对事件进行表示,将每个图像特征和事件体素特征分别分为三个级别,通过交换模块对双模态特征的数据进行数据交换处理,混合中等质量特征、交换低质量特征;将双模态特征与瓶颈特征一起输入融合Transformer模块;之后采用基于GRU的读出层进行增强;最后输出分类结果。本发明增强了模型的特征表达能力;引入交换模块避免了因直接融合特征得到次优解的问题;引入瓶颈机制和融合Transformer模块,使得模型有效地降低了计算复杂性和模型的复杂性,同时降低过拟合的风险;采用基于GRU的读出层,使得模型能够全面探索和利用特征之间的相关性。
-
公开(公告)号:CN117475278A
公开(公告)日:2024-01-30
申请号:CN202311434166.X
申请日:2023-10-30
Applicant: 安徽大学
IPC: G06V10/82 , G06V10/26 , G06V10/40 , G06V10/44 , G06V10/74 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0895 , G06N3/09
Abstract: 本发明公开了基于结构信息引导以车为中心的多模态预训练系统及方法,系统包括掩码自编码器、结构先验模块、语义先验模块及预训练模块;掩码自编码器用于对输入图像进行掩码并对掩码后的车辆图像进行重构;结构先验模块用于提取输入图像轮廓信息,利用轮廓信息和掩码自编码器的预测信息构建蒸馏损失;语义先验模块提取图像的视觉特征和文本描述的语义特征,计算视觉特征、语义特征及掩码自编码器模块的解码特征之间的相似度分布,构建跨模态对比学习损失;预训练模块用于不断进行预训练,直到达到迭代次数或者对应的损失函数值最小时停止训练;本发明的优点在于:提升了主干网络的特征提取能力,提升了以车为中心的感知任务的性能。
-
公开(公告)号:CN116434122A
公开(公告)日:2023-07-14
申请号:CN202310517491.6
申请日:2023-05-08
Applicant: 安徽大学
IPC: G06V20/40 , G06V10/774 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及事件识别技术,具体涉及事件识别模型的训练方法、装置、设备及事件识别方法,包括:获取事件样本数据的事件段、视频帧和标签;将事件段和视频帧分别输入待训练的事件识别模型的脉冲卷积神经网络和记忆Transformer网络,得到事件段特征和视频帧特征;将事件段特征和视频帧特征进行融合,得到识别结果;根据识别结果与标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。本发明训练的事件识别模型利用记忆Transformer网络处理RGB视频,更好的表示RGB视频的时间和空间信息;另一方面利用脉冲卷积神经网络处理事件流,低开销的同时保留高性能;最后将双模态数据进行融合进一步提高识别性能。
-
公开(公告)号:CN110826392A
公开(公告)日:2020-02-21
申请号:CN201910875343.5
申请日:2019-09-17
Applicant: 安徽大学
Abstract: 本发明公开了一种结合上下文信息的跨模态行人检测方法,将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域;将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点构建图模型;采用门循环单元GRU进行上下文信息的传递更新,得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果;使用最终的节点表示来送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,实现行人检测。将深度学习应用到了行人检测领域中,达到较好的检测效果;结合单模态图像上下文信息和跨模态图像上下文信息,使得特征具有更加丰富的信息,帮助分类器更好的分类以及定位。
-
公开(公告)号:CN109034001A
公开(公告)日:2018-12-18
申请号:CN201810725499.0
申请日:2018-07-04
Applicant: 安徽大学
IPC: G06K9/00
CPC classification number: G06K9/00765
Abstract: 本发明公开了一种基于时空线索的跨模态视频显著性检测方法,获取一对匹配的多模态视频序列帧对,使用SLIC算法对其超像素分割;计算超像素分割图的每个像素点的显著性,选择相似度大的节点作为前景点;通过结合上一阶段的显著值、可见光和热红外两个模态的权重构造显著图;对比相邻前后两帧的显著值计算其空间位置最大重叠比继而找到相邻帧之间的固有关系,得到基于时空的多模态视频显著性结果;利用拉格朗日数乘法对模型进行求解并得出结果。本发明从信息融合的角度出发,通过融合多个互补的视觉模态数据克服低光照、雾霾和杂乱背景等因素的影响,引入了每种模式的权重来表示可靠性,以实现不同源数据的自适应和协同融合。
-
-
-
-
-
-
-