-
公开(公告)号:CN117689906A
公开(公告)日:2024-03-12
申请号:CN202311691149.4
申请日:2023-12-11
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06V10/62 , G06V10/44 , G06V10/80 , G06V10/26 , G06V10/762 , G06V10/764 , G06V10/82 , G06V20/40 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/048
Abstract: 本发明属于深度学习、多模态目标跟踪和提示学习领域,涉及动态图卷积网络、K近邻聚类算法和单目标跟踪算法OSTrack。本发明提出了一种基于3D提示信息的彩色和深度图像单目标跟踪算法,旨在提升算法在各种场景中的泛化能力,同时提高其在极端条件下的性能。该方法可部署在自动驾驶场景中的多种设备上,为视觉定位导航提供目标信息。本发明的优势在于:通过使用3D提示信息赋予2D预训练模型对3D环境的感知能力,提高了跟踪算法对目标位置的计算精度,并降低了干扰物在跟踪过程中的影响。同时,这种方法降低了网络对训练数据量的需求,并提升了跟踪算法的精度。
-
公开(公告)号:CN117689704A
公开(公告)日:2024-03-12
申请号:CN202311689601.3
申请日:2023-12-11
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06T7/50 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06V10/25 , G06N3/0464 , G06N3/042 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于机器学习、扩散模型、单目深度估计领域,公开了一种基于扩散模型的单目图像深度估计方法,包括扩散模型特征提取器stable‑diffusion、目标检测算法Detic、场景布局交互算法以及锚框提示深度图生成机制。提供了目标锚框作为条件提示,基于扩散模型stable‑diffusion的单目图像深度估计方法。该方法通过改进条件提示的使用方式,使得扩散模型在单目深度估计任务中更加灵活和多样化。提出了一种预处理方式,利用单目深度估计中的深度分布知识对条件提示进行合理的预处理和优化,以提高模型在不同场景下的泛化能力。引入了一种数据增强方法,进一步优化模型性能和深度图预测效果。
-
公开(公告)号:CN115830090A
公开(公告)日:2023-03-21
申请号:CN202211532186.6
申请日:2022-12-01
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06T7/38 , G06N3/0455 , G06N3/08
Abstract: 本发明属于机器学习、3D计算机视觉、单目深度预测、自监督学习领域,提供了一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法。本发明将自监督深度预测学习中抽象的相机运动预测过程转化为基于像素匹配的过程,并通过几何方式求解相机运动,增强其可解释性,同时提升其泛化性。本发明借助传统几何方法求解的相机运动更准确,使得自监督深度预测学习在室内环境或相机运动姿态变化大的场景下训练过程更稳定、效果更鲁棒。
-
公开(公告)号:CN115810019A
公开(公告)日:2023-03-17
申请号:CN202211532176.2
申请日:2022-12-01
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06T7/10 , G06T7/50 , G06T9/00 , G06N3/0464 , G06N3/08
Abstract: 本发明属于机器学习、单目深度补全领域,公开了一种基于分割和回归网络对离群点鲁棒的深度补全方法。分割网络对于离群点更为鲁棒,回归网络可以生成更为精准的结果,本方法结合二者的优势,使用了一种对离群点更为鲁棒的单目深度补全方法。其中,包含一种分割‑回归的级联网络结构,相较于同参数量的纯回归网络结构,对非离群点的精度更高。同时,利用分割网络对于离群点更为鲁棒的特性,采用了一种对离群点更为鲁棒的损失函数,可以在训练过程中过滤掉一部分离群点,有效缓解了因拟合离群点从而降低网络性能的问题,从而进一步提高了非离群点的精度。
-
公开(公告)号:CN115797835A
公开(公告)日:2023-03-14
申请号:CN202211532178.1
申请日:2022-12-01
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06V20/40 , G06V10/26 , G06V10/80 , G06V10/774 , G06N3/0464 , G06N3/048 , G06N3/088
Abstract: 一种基于异构Transformer的无监督视频目标分割算法,为无监督视频目标分割网络在外观运动特征融合的浅层和深层阶段设计两种不同的基于Transformer的融合策略,分别是全局上下文共享的Transformer和语义聚合‑回嵌的Transformer。全局上下文共享的Transformer能以较低的计算量学习视频帧之间的全局共享上下文信息,语义聚合‑回嵌的Transformer对前景和背景分别建模语义相关性并通过对特征向量软聚合的方式来进一步降低计算量。基于两种融合模块,为无监督视频目标分割任务设计一种层级异构的Transformer架构,这种架构能以较低的计算量实现最先进的性能。
-
公开(公告)号:CN114202739B
公开(公告)日:2024-12-20
申请号:CN202111483319.0
申请日:2021-12-07
Applicant: 大连理工大学宁波研究院 , 大连维视科技有限公司 , 大连理工大学
IPC: G06V20/52 , G06V20/40 , G06N3/0464 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明属于视频行人重识别技术领域,提供了一种视频行人重识别的方法。本发明使用Transformer结构提取多视角特征来解决视频行人重识别任务。视频行人重识别目的是实现行人序列图片的跨摄像头匹配。本发明提出使用三叉网络分别获取行人视频的空间视角,时序视角和时空视角,以此获得在不同特征域的多视角观察。在单一的视角特征域内使用Transformer挖掘单视角特征关系,并优化视角特征。在跨视角特征域间使用Transformer探索多视角特征关系,并融合多视角信息得到更充分的特征表示。本发明可以提取行人视频更鲁棒、更具判别力的特征表示,能够实现更高精度的行人视频实例匹配。
-
公开(公告)号:CN117671246A
公开(公告)日:2024-03-08
申请号:CN202311700186.7
申请日:2023-12-12
Applicant: 大连理工大学 , 大连理工大学宁波研究院 , 大连维视科技有限公司
Abstract: 本发明属于机器学习、目标检测、开放词表目标分割领域,公开了一种基于交叉验证识别机制的开放词表目标检测算法。为提高模型在大规模词表情景下的识别准确性,本发明设计了一个交叉验证识别模块,主要由两个交叉验证识别分支和一个多分支投票组件组成。两个交叉验证识别分支通过结合图像级和区域级的分类器与标签预测器进行有潜在互补性的初步预测,再经由多分支投票组件,依据两分支对不同类别预测的确定性和互补性得到最终预测的混合置信度,提高了检测精度,既在传统的开放词表目标检测任务设置下达到了最先进的性能,又在较复杂的大规模开放词表目标检测任务取得了最优的结果。
-
公开(公告)号:CN114202774A
公开(公告)日:2022-03-18
申请号:CN202111512063.1
申请日:2021-12-07
Applicant: 大连理工大学宁波研究院 , 大连维视科技有限公司
Abstract: 一种密集行人检测方法。在网络训练阶段,搭建卷积神经网络,训练编码器解码器及检测头部预测正确的行人包围框;并根据预测结果,为每个行人分配一个最佳的预测候选框;固定密度估计头部外的其他网络参数,使用每个行人唯一的预测候选框生成密度目标,训练密度估计头部;最后放开网络所有参数,联合训练整个网络。在测试应用阶段,在进行后处理时,每选定一个确定保留的行人框,则在这张预测密度图上减去对应位置的高斯激活图,对于那些与该被保留行人重叠率大于阈值的行人框,利用更新后的密度图对这些行人框进行二次判断。本发明在密集场景下,解决了通用的非极大值抑制方法会误删的正确预测的包围框的问题,同时也不影响非密集场景的表现。
-
公开(公告)号:CN114202740A
公开(公告)日:2022-03-18
申请号:CN202111483359.5
申请日:2021-12-07
Applicant: 大连理工大学宁波研究院 , 大连维视科技有限公司
IPC: G06V20/52 , G06N3/04 , G06K9/62 , G06V10/774 , G06V10/80
Abstract: 一种基于多尺度特征融合的行人重识别方法,1)构建基于多尺度融合的模型,并预训练主干网络暨多尺度特征提取器。2)利用多尺度特征提取器生成图像的多尺度特征。3)采用基于Transformer的特征校准模型融合两个不同尺度的特征。4)利用深监督融合从浅层特征到深层特征不断融合不同层级的特征。5)用交叉熵损失和三元组损失监督融合过程。6)将目标测试集图像输入训练好的模型提取特征,根据特征相似度进行排序得到行人重识别的结果,进而实现行人重识别。本发明采用卷积神经网络提取多尺度特征,使用Transformer从全局的角度融合多尺度信息,使得特征同时具有细节和语义信息,有效的提高了行人重识别的准确率。
-
公开(公告)号:CN114202774B
公开(公告)日:2024-12-13
申请号:CN202111512063.1
申请日:2021-12-07
Applicant: 大连理工大学宁波研究院 , 大连维视科技有限公司 , 大连理工大学
IPC: G06V40/10 , G06V20/52 , G06N3/0464 , G06V10/82 , G06V10/774 , G06V10/74
Abstract: 一种密集行人检测方法。在网络训练阶段,搭建卷积神经网络,训练编码器解码器及检测头部预测正确的行人包围框;并根据预测结果,为每个行人分配一个最佳的预测候选框;固定密度估计头部外的其他网络参数,使用每个行人唯一的预测候选框生成密度目标,训练密度估计头部;最后放开网络所有参数,联合训练整个网络。在测试应用阶段,在进行后处理时,每选定一个确定保留的行人框,则在这张预测密度图上减去对应位置的高斯激活图,对于那些与该被保留行人重叠率大于阈值的行人框,利用更新后的密度图对这些行人框进行二次判断。本发明在密集场景下,解决了通用的非极大值抑制方法会误删的正确预测的包围框的问题,同时也不影响非密集场景的表现。
-
-
-
-
-
-
-
-
-