-
公开(公告)号:CN118674929A
公开(公告)日:2024-09-20
申请号:CN202410822470.X
申请日:2024-06-25
Applicant: 华中科技大学
IPC: G06V10/26 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及计算机视觉技术领域,提供了一种基于分割万物模型和前融合的指令分割方法和装置。包括:选取前融合的多模态特征提取编码器,将文本提示与低分辨率图像进行前期联合编码处理;构造嵌入维度投影层,使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间;优化提示词编码器适配性。本发明通过使用前融合的多模态特征提取编码器,使不同模态的输入在早期阶段进行融合,从而能够更早地整合不同模态的信息,提高模型对指令内容的理解能力和分割精度,即提高模型的性能,并且通过优化提示词编码器适配性,以保持输入和输出的一致序列长度,从而确保实际训练和推理的不稳定,并实现模型的轻量化。
-
公开(公告)号:CN114140322B
公开(公告)日:2024-07-05
申请号:CN202111374589.8
申请日:2021-11-19
Applicant: 华中科技大学
IPC: G06V10/26 , G06T3/4038 , G06T3/4007 , G06V10/74 , G06V20/70
Abstract: 本发明公开了一种注意力引导插值方法:对初始低分辨率特征图利用双线性插值进行上采样得到上采样的低分辨率特征图,并将上采样的低分辨率特征图与初始高分辨率特征图拼接得到查询特征矩阵;将上采样的低分辨率特征图看作键特征矩阵和值特征矩阵,把查询特征矩阵和键特征矩阵输入到相似度函数中,并将相似度函数输出的结果输入归一化指数函数,计算得到相似度矩阵,再通过相似度矩阵和值特征矩阵求出每一个高分辨率特征图中像素的特征向量,得到中间高分辨率特征图;将中间高分辨率特征图Fa和上采样的低分辨率特征图Fl拼接,再通过1x1的卷积,得到最终输出的高分辨率特征图。本发明还公开了相应的低延迟语义分割方法。
-
公开(公告)号:CN114140322A
公开(公告)日:2022-03-04
申请号:CN202111374589.8
申请日:2021-11-19
Applicant: 华中科技大学
Abstract: 本发明公开了一种注意力引导插值方法:对初始低分辨率特征图利用双线性插值进行上采样得到上采样的低分辨率特征图,并将上采样的低分辨率特征图与初始高分辨率特征图拼接得到查询特征矩阵;将上采样的低分辨率特征图看作键特征矩阵和值特征矩阵,把查询特征矩阵和键特征矩阵输入到相似度函数中,并将相似度函数输出的结果输入归一化指数函数,计算得到相似度矩阵,再通过相似度矩阵和值特征矩阵求出每一个高分辨率特征图中像素的特征向量,得到中间高分辨率特征图;将中间高分辨率特征图Fa和上采样的低分辨率特征图Fl拼接,再通过1x1的卷积,得到最终输出的高分辨率特征图。本发明还公开了相应的低延迟语义分割方法。
-
-