-
公开(公告)号:CN119784894A
公开(公告)日:2025-04-08
申请号:CN202411733171.5
申请日:2024-11-29
Applicant: 厦门大学
IPC: G06T11/60 , G06F40/166 , G06N3/0455 , G06N3/09
Abstract: 本发明公开了一种基于AI反馈的文本生成图像优化方法、装置及介质,涉及文本生成图像优化技术领域。所述方法通过引入大语言模型来作为一种人类偏好注释的可替代方案,利用AI反馈来近似人类偏好,从而摆脱人类反馈方式的高昂贵人工依赖,总体包括两个过程:1)近似偏好,使用大语言模型来近视人类偏好,产生排名对;2)对齐,将更加精美的图像与简单文本进行对齐,期望文本生成图像模型来生成更高质量的图像。本发明提供的一种基于AI反馈的文本生成图像优化方法、装置及介质,解决了人类反馈优化方法的昂贵人工成本和微调开销的问题。
-
公开(公告)号:CN119762908A
公开(公告)日:2025-04-04
申请号:CN202411811506.0
申请日:2024-12-10
Applicant: 厦门大学
IPC: G06V10/774 , G06V10/764 , G06V10/772 , G06V10/776 , G06V10/82
Abstract: 本发明公开了一种高质量工业异常数据合成方法,包括以下步骤:S1、采用混合异常解耦模块,通过视觉语言模型进行多轮对话,对异常数据集中耦合的异常类别进行解耦,使耦合的异常类别转化为更细粒度的类别和属性;S2、采用高质量异常掩码生成模块,通过异常掩码生成器、引导区域Printer和异常掩码定位器,生成与各种属性对齐的、位置精确且形状正常的异常掩码;S3、采用自动异常数据集生成模块,通过Textual Inversion方法和自动过滤器,合成并筛选出了高质量的异常图像与掩码对;该方法通过混合异常解耦模块、高质量异常掩码生成模块和自动异常数据集生成模块实现高质量异常图像和掩码对的合成。
-
公开(公告)号:CN119649003A
公开(公告)日:2025-03-18
申请号:CN202411786950.1
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/764 , G06N3/096 , G06N3/045 , G06V10/44 , G06V10/80 , G06N3/084 , G06V10/74 , G06V10/762
Abstract: 本发明公开一种基于原型库特征挖掘的开放词汇目标检测方法、电子设备和存储介质,提高对新类别目标的检测性能,其包括一个类别泛化的区域提议网络CG‑RPN和类别特定的知识蒸馏方法CSKD,并包括:1、预处理待检测图片,再将预处理后的待检测图片及其对应的图片级别标签送入视觉语言模型VLM;2、由VLM对待检测图片进行特征提取和特征融合,将得到的特征图送入CG‑RPN中;CG‑RPN根据特征筛选样本框,根据分类得分为样本框分配标签并送入CSKD中;3、CSKD分别使用RoI head和VLM image encoder将样本框处理成两组特征,再使用类别特定的知识蒸馏方法从VLM中转移丰富的视觉语义知识;4、分类头和回归头根据RoI head生成的特征得到最终预测结果,由GT计算相关损失并反向传播至VLM以调整参数。
-
公开(公告)号:CN119444896A
公开(公告)日:2025-02-14
申请号:CN202411480220.9
申请日:2024-10-23
Applicant: 厦门大学
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06T3/04 , G06T11/60 , G06N3/0475
Abstract: 本发明公开了一种无需训练的局部视频风格迁移方法及系统,方法包括:内容分支对原视频的视频帧进行去噪反转,获得不同时间戳的内容潜在特征Zt(t=1→T);对原视频进行去噪反转的过程中,对原视频的第一帧视频帧打上掩码,基于点匹配将掩码传递到原视频的所有视频帧;风格分支对参考图像进行去噪反转,获得不同时间戳的风格潜在特征#imgabs0#编辑分支中,令初始的迁移潜在特征#imgabs1#基于初始的迁移潜在特征进行去噪,去噪过程中基于AdaIN的风格迁移技术对迁移潜在特征进行风格迁移,获得风格迁移结果,通过解码器逐帧解码到像素表示,作为局部风格迁移后的视频。本发明可以满足用户对局部区域进行迁移的需求,同时减少迁移过程中带来的闪烁与伪影。
-
公开(公告)号:CN119417699A
公开(公告)日:2025-02-11
申请号:CN202411442824.4
申请日:2024-10-16
Applicant: 厦门大学
IPC: G06T3/4053 , G06T3/4046 , G06N3/0464 , G06N3/045 , G06N3/09 , G06N3/0475 , G06N3/094 , G06N3/096 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/048
Abstract: 本发明公开一种通过双域学习网络增强单图像超分辨率的方法、电子设备和存储介质,解决现有技术中在重建细节和纹理方面不足的问题,能够综合频率域和空间域信息,改进从低分辨率图像到高分辨率图像的重建质量。该方法包括:1、将一个低分辨率图像输入包含多个双域学习块的双域学习网络,通过多个双域学习块处理,生成两个超分辨率图像输出:一个是频率域输出,一个是空间域输出;步骤2、引入复数卷积鉴别器和交叉模态蒸馏损失以增强双域学习网络的性能,具体是:复数卷积鉴别器用于处理将图像从HSV色彩空间转换为复数形式的数据;交叉模态蒸馏损失作为损失函数,在模型训练过程中引导频率域和空间域输出的有效融合。
-
公开(公告)号:CN118710911A
公开(公告)日:2024-09-27
申请号:CN202410930124.3
申请日:2024-07-11
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/75 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0895
Abstract: 本发明涉及一种基于多尺度学习的半监督实例分割方法、系统及存储介质,本发明对于两种尺度下预测的分类标签的角度以及掩膜的角度进行互相参考和纠正,再通过综合得分确定最终应当保留的伪标签,从而很好地对单一尺度上的伪标签进行数量上的补充以及质量上的提优。本发明还设计了面积适应的额外尺度学习策略,通过在额外的尺度下让模型分别学习大面积以及根据预测情况保留的小面积伪标签,有效提升额外下采样下的模型对于伪标签的学习效果。
-
公开(公告)号:CN118071999B
公开(公告)日:2024-09-06
申请号:CN202410460946.X
申请日:2024-04-17
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/64 , G06V10/22 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。
-
公开(公告)号:CN118246510A
公开(公告)日:2024-06-25
申请号:CN202410661740.3
申请日:2024-05-27
Applicant: 厦门大学
IPC: G06N3/082 , G06N3/086 , G06N3/0495
Abstract: 本发明涉及一种神经网络的后训练剪枝方法,其采用减少再生长的进化搜索算法来确定神经网络的最优稀疏率;然后利用促进稀疏网络从密集网络学习有效知识的稀疏目标和程;最后,基于前述两种因素结合动态稀疏训练来全面优化稀疏结构,确保训练的稳定性,同时提高剪枝后的稀疏网络的准确率。
-
公开(公告)号:CN117953180A
公开(公告)日:2024-04-30
申请号:CN202410346795.5
申请日:2024-03-26
Applicant: 厦门大学
IPC: G06T17/20 , G06T15/04 , G06T15/06 , G06T15/08 , G06T15/20 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06N5/04
Abstract: 本发明提供了计算机视觉技术领域的一种基于双模式潜变量扩散的文本到三维物体生成方法,包括如下步骤:步骤S10、利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型;步骤S20、获取待生成三维物体的文本,基于效率与一致性权衡策略,利用所述双模式多视图隐变量扩散模型对文本进行推理,生成第一三维物体;步骤S30、对所述第一三维物体的曲面纹理进行优化,生成第二三维物体。本发明的优点在于:极大的提升了三维物体生成的质量以及速度。
-
公开(公告)号:CN117173396A
公开(公告)日:2023-12-05
申请号:CN202311122506.5
申请日:2023-09-01
Applicant: 厦门大学
IPC: G06V10/25 , G06V10/52 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 一种基于分级聚焦特征金字塔的小目标检测方法,涉计算机视觉技术。模型训练阶段:1,预处理后待检测的图片及其对应的类别送入神经网络;2,神经网络对图片提取特征,将特征送入到分级聚焦特征金字塔中融合;3,模型利用融合后得到的特征输出待检测图片中目标的位置和类别。模型测试阶段:待检测图片经过特征提取后进入分级聚焦特征金字塔,利用融合后的特征输出待检测图片预测的框的坐标、类别、得分。分级聚焦特征金字塔包含HFSM和FFGA。HFSM引入特征相减操作获取细节信息,引入分级策略。FFGA利用特征融合时的全局信息引导本层特征聚焦于有效信息、抑制噪声信息。实验表明,实现显著和一致的性能改进。
-
-
-
-
-
-
-
-
-