一种基于AI反馈的文本生成图像优化方法、装置及介质

    公开(公告)号:CN119784894A

    公开(公告)日:2025-04-08

    申请号:CN202411733171.5

    申请日:2024-11-29

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于AI反馈的文本生成图像优化方法、装置及介质,涉及文本生成图像优化技术领域。所述方法通过引入大语言模型来作为一种人类偏好注释的可替代方案,利用AI反馈来近似人类偏好,从而摆脱人类反馈方式的高昂贵人工依赖,总体包括两个过程:1)近似偏好,使用大语言模型来近视人类偏好,产生排名对;2)对齐,将更加精美的图像与简单文本进行对齐,期望文本生成图像模型来生成更高质量的图像。本发明提供的一种基于AI反馈的文本生成图像优化方法、装置及介质,解决了人类反馈优化方法的昂贵人工成本和微调开销的问题。

    一种高质量工业异常数据合成方法

    公开(公告)号:CN119762908A

    公开(公告)日:2025-04-04

    申请号:CN202411811506.0

    申请日:2024-12-10

    Applicant: 厦门大学

    Abstract: 本发明公开了一种高质量工业异常数据合成方法,包括以下步骤:S1、采用混合异常解耦模块,通过视觉语言模型进行多轮对话,对异常数据集中耦合的异常类别进行解耦,使耦合的异常类别转化为更细粒度的类别和属性;S2、采用高质量异常掩码生成模块,通过异常掩码生成器、引导区域Printer和异常掩码定位器,生成与各种属性对齐的、位置精确且形状正常的异常掩码;S3、采用自动异常数据集生成模块,通过Textual Inversion方法和自动过滤器,合成并筛选出了高质量的异常图像与掩码对;该方法通过混合异常解耦模块、高质量异常掩码生成模块和自动异常数据集生成模块实现高质量异常图像和掩码对的合成。

    基于原型库特征挖掘的开放词汇目标检测方法、电子设备和存储介质

    公开(公告)号:CN119649003A

    公开(公告)日:2025-03-18

    申请号:CN202411786950.1

    申请日:2024-12-06

    Applicant: 厦门大学

    Abstract: 本发明公开一种基于原型库特征挖掘的开放词汇目标检测方法、电子设备和存储介质,提高对新类别目标的检测性能,其包括一个类别泛化的区域提议网络CG‑RPN和类别特定的知识蒸馏方法CSKD,并包括:1、预处理待检测图片,再将预处理后的待检测图片及其对应的图片级别标签送入视觉语言模型VLM;2、由VLM对待检测图片进行特征提取和特征融合,将得到的特征图送入CG‑RPN中;CG‑RPN根据特征筛选样本框,根据分类得分为样本框分配标签并送入CSKD中;3、CSKD分别使用RoI head和VLM image encoder将样本框处理成两组特征,再使用类别特定的知识蒸馏方法从VLM中转移丰富的视觉语义知识;4、分类头和回归头根据RoI head生成的特征得到最终预测结果,由GT计算相关损失并反向传播至VLM以调整参数。

    一种无需训练的局部视频风格迁移方法及系统

    公开(公告)号:CN119444896A

    公开(公告)日:2025-02-14

    申请号:CN202411480220.9

    申请日:2024-10-23

    Applicant: 厦门大学

    Abstract: 本发明公开了一种无需训练的局部视频风格迁移方法及系统,方法包括:内容分支对原视频的视频帧进行去噪反转,获得不同时间戳的内容潜在特征Zt(t=1→T);对原视频进行去噪反转的过程中,对原视频的第一帧视频帧打上掩码,基于点匹配将掩码传递到原视频的所有视频帧;风格分支对参考图像进行去噪反转,获得不同时间戳的风格潜在特征#imgabs0#编辑分支中,令初始的迁移潜在特征#imgabs1#基于初始的迁移潜在特征进行去噪,去噪过程中基于AdaIN的风格迁移技术对迁移潜在特征进行风格迁移,获得风格迁移结果,通过解码器逐帧解码到像素表示,作为局部风格迁移后的视频。本发明可以满足用户对局部区域进行迁移的需求,同时减少迁移过程中带来的闪烁与伪影。

    一种基于采样自适应的连续NeRF的多视角3D目标检测方法

    公开(公告)号:CN118071999B

    公开(公告)日:2024-09-06

    申请号:CN202410460946.X

    申请日:2024-04-17

    Applicant: 厦门大学

    Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。

    一种神经网络的后训练剪枝方法

    公开(公告)号:CN118246510A

    公开(公告)日:2024-06-25

    申请号:CN202410661740.3

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明涉及一种神经网络的后训练剪枝方法,其采用减少再生长的进化搜索算法来确定神经网络的最优稀疏率;然后利用促进稀疏网络从密集网络学习有效知识的稀疏目标和程;最后,基于前述两种因素结合动态稀疏训练来全面优化稀疏结构,确保训练的稳定性,同时提高剪枝后的稀疏网络的准确率。

    一种基于分级聚焦特征金字塔的小目标检测方法

    公开(公告)号:CN117173396A

    公开(公告)日:2023-12-05

    申请号:CN202311122506.5

    申请日:2023-09-01

    Applicant: 厦门大学

    Abstract: 一种基于分级聚焦特征金字塔的小目标检测方法,涉计算机视觉技术。模型训练阶段:1,预处理后待检测的图片及其对应的类别送入神经网络;2,神经网络对图片提取特征,将特征送入到分级聚焦特征金字塔中融合;3,模型利用融合后得到的特征输出待检测图片中目标的位置和类别。模型测试阶段:待检测图片经过特征提取后进入分级聚焦特征金字塔,利用融合后的特征输出待检测图片预测的框的坐标、类别、得分。分级聚焦特征金字塔包含HFSM和FFGA。HFSM引入特征相减操作获取细节信息,引入分级策略。FFGA利用特征融合时的全局信息引导本层特征聚焦于有效信息、抑制噪声信息。实验表明,实现显著和一致的性能改进。

Patent Agency Ranking