-
公开(公告)号:CN119810442A
公开(公告)日:2025-04-11
申请号:CN202411868829.3
申请日:2024-12-18
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/25 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0895 , G06N3/096
Abstract: 本发明公开了一种伪标签质量解耦与修正的半监督实例分割方法及系统,方法包括以下步骤:教师模型处理未标注图像并生成预测结果;通过解耦的双阈值机制过滤预测结果,保留满足条件的预测结果作为实例伪标签;对实例伪标签进行动态实例类别修正,得到修正伪标签;结合预测结果和修正伪标签构建损失函数,训练用于进行实例分割的学生模型。本发明通过解耦的双阈值过滤机制、动态实例类别修正模块及像素级掩码不确定性感知机制,独立控制伪标签的类别与掩码质量,有效减少半监督实例分割任务中伪标签噪声带来的影响;本发明尤其适用于需要利用大规模未标注数据提升图像理解方面的有效性的半监督场景,其显著提升了半监督实例分割的性能。
-
公开(公告)号:CN119516098A
公开(公告)日:2025-02-25
申请号:CN202411392309.X
申请日:2024-10-08
Applicant: 厦门大学
IPC: G06T17/00 , G06T15/00 , G06T5/50 , G06V20/58 , G06V20/64 , G06V10/26 , G06V10/82 , G06N3/0455 , G06N3/09
Abstract: 本发明公开了一种自动驾驶场景自适应单物体三维重建以及图像点云合成方法,涉及自动驾驶场景数据生产技术领域。所述方法包括:将目标物体在三维空间中的box的每一个顶点分别投射到每一帧上,然后进行图像分割,将分割物体之外的部分的不透明度置为0后作为训练的输入,并且用不透明度对于物体进行监督;结合Scaffold‑GS的参数以及相机的自适应参数进行渲染,得到渲染图像,计算训练损失对高斯点云进行更新;将训练场景和目标场景的第一帧的相机位姿进行对齐,来确定目标物体摆放的位置,然后对目标物体进行渲染,得到多视角物体图像,能够直接与目标场景图像进行粘贴的处理。本发明生成无边缘模糊的单物体三维表示,实现在目标场景中对于该物体的渲染。
-
公开(公告)号:CN119515682A
公开(公告)日:2025-02-25
申请号:CN202411442828.2
申请日:2024-10-16
Applicant: 厦门大学
IPC: G06T3/4053 , G06V10/80 , G06V10/44 , G06N3/0464
Abstract: 本发明公开一种基于动态频谱混合网络的用于单图像超分辨率的双域学习方法、电子设备和存储介质,有效整合空间域和频率域特征,以改进图像超分辨率的质量和适用性,包括:步骤1、在分解阶段,对于给定的输入图像分别通过步长#imgabs0#为#imgabs1#、#imgabs2#的卷积层来提取低频特征、高频特征;步骤2、低频特征通过#imgabs3#个级联的残差密集块后获得空间特征,高频特征通过#imgabs4#个级联的复值块后获得频率特征;步骤3、空间特征、频率特征分别由特征增强和选择单元进行增强和融合;步骤4、由动态特征融合编码器对于空间特征和频率特征通过单独但互连的路径进行处理,最终输出动态特征融合编码器输出的超分辨率图像。
-
公开(公告)号:CN119089967A
公开(公告)日:2024-12-06
申请号:CN202411002426.0
申请日:2024-07-25
Applicant: 厦门大学
IPC: G06N3/084 , G06N3/0495
Abstract: 本发明公开一种用于量化的多模态大模型的指令微调方法,包括:步骤1、量化感知的尺度学习;步骤2、用于尺度学习的多模态热身策略;步骤3、使用量化后的多模态大模型进行特定任务学习。本发明采用量化感知的尺度学习,能够自适应地最小化异常位置的量化误差,尤其在某些位置激活表现为异常值特征的情况下能够有效地减少了每个量化组内的量化误差,从而解决现有技术对于离群点造成的量化误差无法有效处理的问题;本发明通过均匀量化的方法,采用权重裁剪来缓解语言任务中发生的量化困难;本发明在迭代达到一定次数后,将多模态指令数据集替换为混合数据集,有助于在保持多模态任务性能的同时,逐步引入语言数据,避免过度拟合。
-
公开(公告)号:CN118887665A
公开(公告)日:2024-11-01
申请号:CN202410837317.4
申请日:2024-06-26
Applicant: 厦门大学
IPC: G06V20/70 , G06V10/26 , G06T17/05 , G06T5/50 , G06V10/762 , G06V10/764 , G06V10/774 , G06V10/74 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于三维高斯场景的开放词汇语义分割方法及装置,涉及计算机视觉技术领域。首先训练不含有语义信息的三维高斯场景,然后对数据集的图片进行预处理,提取出语义特征图;然后利用语义特征图,在三维高斯场景中训练场景的开放词汇语义特征,输出每一个视角下的图片对应的预测特征图;训练完成后,将语义分割视作二分类,引入可优化的语义空间超平面,利用RES模型的预测结果来微调可优化的语义空间超平面,输出语义分割结果。本发明提供的一种基于三维高斯场景的开放词汇语义分割方法及装置,提出可优化的语义空间超平面方法,不需要基于经验设定的像素—文本相似度的阈值,又能实现相似度阈值的动态调整与更精确的分割效果。
-
公开(公告)号:CN118229964B
公开(公告)日:2024-10-08
申请号:CN202410652793.9
申请日:2024-05-24
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/766
Abstract: 本发明公开一种基于全流水线改良的小目标检测方法,在目标检测流水线的三个阶段都进行了改进,综合提高了对小目标的检测性能,其包括以下步骤:对待检测图片进行预处理,然后将预处理后的待检测图片及其对应的标签送入神经网络;神经网络在检测流水线的上游对待检测图片进行特征提取和特征融合并进行提纯操作得到特征图;在检测流水线的中游使用IoU、位置偏移指标和尺寸约束指标共同为特征图的候选框评分并分配正标签和负标签;在检测流水线的下游,将分配好标签的训练样本和特征图一起送到频率解耦检测头中进行分类和回归,输出待检测图片中的待检测目标对应每一个类别的概率数值以及对应的位置信息。
-
公开(公告)号:CN118071999A
公开(公告)日:2024-05-24
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN117893838A
公开(公告)日:2024-04-16
申请号:CN202410288788.4
申请日:2024-03-14
Applicant: 厦门大学
IPC: G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06V10/30
Abstract: 本发明公开一种应用扩散检测模型的目标检测方法,可实现扩散检测模型精度的提升,其包括:1、获取输入图像,通过图像特征提取器提取输入图像的图像特征图;2、获取低维真值框,通过边界框编码器将低维真值框编码,从低维空间映射到高维空间,获取高维真值框;3、根据扩散检测模型添加噪声的规则对高维真值框逐步添加高斯噪声,获取高维噪声框;4、通过边界框解码器将高维噪声框解码,从高维空间映射回编码前的低维空间,获取低维噪声框;5、利用低维噪声框从图像特征提取器提取到的图像特征图中截取RoI特征,将截取的RoI特征与低维噪声框一起输入检测头中并进行回归和分类,预测对应低维真值框的位置和目标类别。
-
公开(公告)号:CN117475105A
公开(公告)日:2024-01-30
申请号:CN202310556250.2
申请日:2023-05-17
Applicant: 厦门大学
Abstract: 一种基于单目图像的开放世界三维场景重建及感知方法,涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割;再通过填充等处理进行实例去遮挡,并再次进行实例感知得到其语义信息;再利用实例语义信息进行单目三维重建;最后通过场景和实例的感知信息计算得各实例在场景中的三维位置,并将实例重组为原始图像对应的三维场景,并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题,提高开放世界三维场景重建及感知的鲁棒性。
-
公开(公告)号:CN117173409A
公开(公告)日:2023-12-05
申请号:CN202311123978.2
申请日:2023-09-01
Applicant: 厦门大学
Abstract: 一种实时的交互式图像分割方法,涉及计算机视觉。采用一种全新的流程来处理交互分割问题,旨在提高交互式分割的计算效率。包括如下步骤:步骤1,在高性能设备上采用大型视觉模型并行预处理图像;步骤2,在低功耗设备上,轻量级的分割模块利用预处理的图像特征实时有效地响应标注器的输入,从图像中准确地分割出目标区域,并根据用户的反馈不断提高分割准确度。只需使用一个轻量级模块在低功耗设备上执行交互式分割,该模块将来自大模型的预处理特征与标注者的点击作为输入。在保持模型分割性能具有竞争力的同时,优化模型推理流程,提高计算效率。
-
-
-
-
-
-
-
-
-