一种基于重校准注意力的工业异常检测方法

    公开(公告)号:CN119762852A

    公开(公告)日:2025-04-04

    申请号:CN202411811497.5

    申请日:2024-12-10

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于重校准注意力的工业异常检测方法,包括以下步骤:S1、构建工业异常检测模型,并对工业异常检测模型进行初始化;所述工业异常检测模型由教师模型、学生模型和自动编码器组成;S2、采用层级异常评分模块HSQ对工业异常检测模型中网络每层的异常判断能力进行评估,根据异常识别能力给各层分配相应的量化比特宽度,再逐层对工业异常检测模型进行训练后量化;S3、对学生模型和自动编码器进行微调训练;S4、采用微调训练后的工业异常检测模型进行工业异常检测;该方法系统地分解和重新校准注意力图,提高了模型的泛化能力和异常检测精度,具有显著的实用价值和应用前景。

    一种基于视觉语言模型的少样本图像质量评估方法及装置

    公开(公告)号:CN119316586A

    公开(公告)日:2025-01-14

    申请号:CN202411189113.0

    申请日:2024-08-28

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于视觉语言模型的少样本图像质量评估方法及装置,涉及图像质量评估技术领域。本发明通过引入梯度调节元提示图像质量评估(GRMP‑IQA),先通过元提示预训练采用双层梯度优化过程合并来自各种图像失真的元知识,从而用于细化文本和视觉提示的初始化,增强了CLIP模型对IQA任务的适应能力,降低了提示初始化对各种IQA场景的敏感性;然后通过质量感知梯度正则化纠正视觉‑语言模型(CLIP)过度关注语义内容而引入的偏差,确保对图像质量进行更准确的评估,使预训练的CLIP模型适应具有少量训练样本的BIQA任务。

    一种神经网络的后训练剪枝方法

    公开(公告)号:CN118246510B

    公开(公告)日:2024-10-22

    申请号:CN202410661740.3

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明涉及一种神经网络的后训练剪枝方法,其采用减少再生长的进化搜索算法来确定神经网络的最优稀疏率;然后利用促进稀疏网络从密集网络学习有效知识的稀疏目标和程;最后,基于前述两种因素结合动态稀疏训练来全面优化稀疏结构,确保训练的稳定性,同时提高剪枝后的稀疏网络的准确率。

    实时的交互式图像分割方法

    公开(公告)号:CN118229700B

    公开(公告)日:2024-10-22

    申请号:CN202410645393.5

    申请日:2024-05-23

    Applicant: 厦门大学

    Abstract: 本发明公开一种实时的交互式图像分割方法,涉及计算机视觉技术领域,引入了一种创新的处理交互分割问题的流程,能够提高交互式分割任务的计算效率,包括:步骤1、使用大型视觉模型对图像进行并行预处理,得到图像特征;步骤2、通过一轻量级的交互式分割模块,实时处理图像特征和用户输入的交互信息,能够从图像中准确地分割出目标区域,并根据用户的反馈不断提高分割的准确度。本发明通过将来自大型视觉模型预处理的图像特征与用户输入的交互信息相结合,并使用单一的轻量级交互式分割模块执行交互式分割,这种设计不仅保持了模型分割性能的竞争力,同时也优化了模型推理流程,显著提高了计算效率,为实时交互式图像分割提供了有效的解决方案。

    应用扩散检测模型的目标检测方法

    公开(公告)号:CN117893838B

    公开(公告)日:2024-07-19

    申请号:CN202410288788.4

    申请日:2024-03-14

    Applicant: 厦门大学

    Inventor: 曹刘娟 罗耀钦

    Abstract: 本发明公开一种应用扩散检测模型的目标检测方法,可实现扩散检测模型精度的提升,其包括:1、获取输入图像,通过图像特征提取器提取输入图像的图像特征图;2、获取低维真值框,通过边界框编码器将低维真值框编码,从低维空间映射到高维空间,获取高维真值框;3、根据扩散检测模型添加噪声的规则对高维真值框逐步添加高斯噪声,获取高维噪声框;4、通过边界框解码器将高维噪声框解码,从高维空间映射回编码前的低维空间,获取低维噪声框;5、利用低维噪声框从图像特征提取器提取到的图像特征图中截取RoI特征,将截取的RoI特征与低维噪声框一起输入检测头中并进行回归和分类,预测对应低维真值框的位置和目标类别。

    一种基于重参数化网络的迭代式训练方法

    公开(公告)号:CN116306871A

    公开(公告)日:2023-06-23

    申请号:CN202310298282.7

    申请日:2023-03-24

    Abstract: 一种基于重参数化网络的迭代式训练方法,涉及网络结构设计。1)对于给定的重参数化网络结构,设定用于知识蒸馏训练方法的教师网络、最大迭代次数、最大递归深度及每次的迭代次数;2)初始化网络权重或从已收敛的网络中加载预训练权重;3)设定好迭代次数上限,将用于推理的网络重新拓展到用于训练的网络;4)新扩充的分支在满足约束条件下初始化,从数据集中随机抽取部分数据用于前向推理,对各并行分支的BN层参数校正;5)利用教师网络知识蒸馏训练;6)利用重参数化技术无损合并为单分支的纯卷积网络;7)若达到最大递归循环次数或性能已满足需求,则步骤6)所得网络为最终用于部署的网络;反之,则回步骤3),重复上述训练过程。

    一种基于类别核化动态卷积的实例分割方法

    公开(公告)号:CN116012585A

    公开(公告)日:2023-04-25

    申请号:CN202310018185.8

    申请日:2023-01-06

    Applicant: 厦门大学

    Abstract: 一种基于类别核化动态卷积的实例分割方法,涉及计算机视觉中的图像检测和分割。设计一种分类核化动态CANDY卷积,结合RoI信息、类别信息和位置信息来生成用于分割的动态核。生成实例分割框架CANDY‑Mask,增强对前景对象的判别能力。在MS‑COCO数据集上实验验证CANDY‑Mask性能。创新点内容:1)多级金字塔特征集成。通过多次卷积操作将具有特征金字塔网络层融合成一个基于像素位置的统一特征图。2)类别感知内核生成。利用类别信息解决“类不可分现象”并嵌入基于实例的位置信息。3)动态卷积操作。将统一的全局特征与局部信息和实例位置相结合,融合基于局部的细节信息和基于全局的感受视野特征。

    一种基于Transformer的端到端实例分割方法

    公开(公告)号:CN113837190A

    公开(公告)日:2021-12-24

    申请号:CN202111005862.X

    申请日:2021-08-30

    Applicant: 厦门大学

    Inventor: 曹刘娟 胡杰 陆瑶

    Abstract: 一种基于Transformer的端到端实例分割方法,涉及计算机视觉中的图像检测和分割领域。1)利用卷积网络和具有特征金字塔网络将图像生成特征金字塔;2)利用RoIAlign裁剪并对齐来自金字塔的特征图,提取RoI感兴趣特征区域;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框,低维掩码特征,目标类别;5)反复迭代查询框,并更新预测头输出。在端到端实例分割中使用Transformers,可预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。可并行检测并分割实例,准确性和运行性能优。

    一种基于语义一致性和风格多样性的域泛化语义分割方法

    公开(公告)号:CN120014272A

    公开(公告)日:2025-05-16

    申请号:CN202510093896.0

    申请日:2025-01-21

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于语义一致性和风格多样性的域泛化语义分割方法,包括以下步骤:S1、基于CLIP视觉编码器和文本编码器进行视觉和文本特征提取;S2、基于语义查询增强器利用图文模态间的语义一致性,建立跨模态语义关联并聚合相关语义特征以增强初始对象查询;S3、基于文本驱动的风格变换模块利用文本嵌入差异,引导图像特征低频幅度谱的变换;S4、通过协同加权风格对比损失和风格聚合损失,加强领域间特征的分离和领域内特征的聚合;S5、基于掩码解码器使用语义查询逐层进行掩码预测、类别预测和查询细化;该方法在各个跨域数据集上实现了显著优于现有方法的最佳性能,同时保持模型的训练开销低、推理速度快,具有显著的实用价值和应用前景。

    基于稀疏视角三维重建和动态对齐的三维分割方法及系统

    公开(公告)号:CN119963749A

    公开(公告)日:2025-05-09

    申请号:CN202510447570.3

    申请日:2025-04-10

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于稀疏视角三维重建和动态对齐的三维分割方法及系统,涉及三维目标分割技术领域,方法包括:图片预处理;将预处理后的图片以两个视图图片为一组输入图片组,输入神经网络MASt3R中,得到每组输入图片组在同一个相机坐标系下的点云数据;遍历每组输入图片组对应的点云,基于动态全局对齐策略学习到每个视图映射到世界坐标系的变换矩阵;基于用户提示以及SAM2获取所有视角的二维分割掩码,通过学习到的矩阵将二维分割掩码对齐到世界坐标系。本发明基于神经网络MASt3R提出一种基于二维视图的前馈式三维分割模型,可以实现任意场景下的实时交互式三维分割,既保证性能又显著提升效率。

Patent Agency Ranking