一种基于文本驱动的高效弱监督语义分割方法及装置

Invention Publication

CN115937852A 一种基于文本驱动的高效弱监督语义分割方法及装置有权

Please log in to see more content

Patent Title: 一种基于文本驱动的高效弱监督语义分割方法及装置
Application No.: CN202211597202.X

Application Date: 2022-12-12
Publication No.: CN115937852A

Publication Date: 2023-04-07
Inventor: 林钰淇 , 陈铭浩 , 蔡登
Applicant: 浙江大学
Applicant Address: 浙江省杭州市西湖区余杭塘路866号
Assignee: 浙江大学
Current Assignee: 浙江大学
Current Assignee Address: 浙江省杭州市西湖区余杭塘路866号
Agency: 杭州天勤知识产权代理有限公司
Agent 彭剑
Main IPC: G06V20/70
IPC: G06V20/70 ; G06V10/26 ; G06V10/774 ; G06V10/764 ; G06V10/82 ; G06N3/047 ; G06N3/08 ; G06F40/284 ; G06F40/247 ; G06N3/0895

Abstract:

本发明公开了一种基于文本驱动的高效弱监督语义分割方法及装置，包括如下步骤：(1)将图片和对应的类别名输入预训练好的视觉‑语言模型，使用基于梯度的类激活映射得到初始的类激活图；(2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进；(3)使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签；(4)利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割。本发明通过引入基于视觉transformer架构的视觉‑语言模型来高效地为语义分割生成高质量的伪标签，从而提高语义分割模型的分割效率和效果。

Public/Granted literature

CN115937852B 一种基于文本驱动的高效弱监督语义分割方法及装置 Public/Granted day:2025-04-25

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/70	.标记场景内容，例如派生句法或语义表示