-
公开(公告)号:CN118885586A
公开(公告)日:2024-11-01
申请号:CN202410921234.3
申请日:2024-07-10
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06F16/332 , G06V30/19 , G06N3/0464
Abstract: 本发明公开了一种基于知识蒸馏的语言模态去偏视觉问答方法,包括以下步骤:1)获取给定的一张图像和关于图像的一个问题;2)利用学生模型对所述问题和所述图像进行处理,获取所述问题的答案;其中,学生模型的获取过程如下:2.1)构建教师模型和学生模型;2.2)利用训练集对教师模型进行训练,其中,训练集数据包括图片、问题文本和答案文本;2.3)对学生模型进行训练;2.4)利用所述教师模型并基于设定的损失函数对所述学生模型进行知识蒸馏,固定教师模型的参数不更新,通过更新学生模型的参数来优化整个学习过程,获得训练完成的学生模型。本发明的方案通过引入一个教师模型,将其输出当作监督学生模型的软标签,可以避免了额外的数据标注。
-
公开(公告)号:CN114691847B
公开(公告)日:2024-04-26
申请号:CN202210231121.1
申请日:2022-03-10
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于深度感知与语义引导的关系注意力网络视觉问答方法,包括以下步骤:1)图像目标之间的三维空间关系构建;得到图像目标之间的三维空间关系;2)根据图像目标之间的三维空间关系,获取图像目标i和j之间在空间维度的相关性分数;3)结合隐式注意力和显式注意力,获取图像目标i和j之间的相关性;4)根据Transformer的框架,采用改进后的注意力机制替换传统的自注意力层,获得视觉问答模型。本发明将三维空间的相关性引入到传统的自注意力机制上,提高视觉问答的准确性。
-
公开(公告)号:CN118312588B
公开(公告)日:2025-01-10
申请号:CN202410237190.2
申请日:2024-03-01
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06F16/3329 , G06F40/205 , G06V10/25 , G06V10/40 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于目标检测的中间过程监督策略的视觉问答方法,包括以下步骤:1)通过卷积神经网络对视觉图像提取图像特征;2)利用一个编码器‑解码器网络模型将带回答的问题解析为程序树;3)通过程序执行网络获得每个执行步骤对应的中间监督信号;图像特征和L层的程序树,程序执行从第1层到第L层进行逐步推理,基于图像特征获取答案。本发明从问题中解析出执行程序,然后在场景图上执行逐步推理,生成完整的中间结果。本发明利用中间结果对视觉问答模型进行中间过程监督。本发明为推理过程提供了更全面的监督信号,从而提高了答案预测性能。
-
公开(公告)号:CN114913341A
公开(公告)日:2022-08-16
申请号:CN202210588207.X
申请日:2022-05-26
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于陈述句提示微调的视觉问答方法,包括以下步骤:1)对于给定的视觉问答输入(I,Q),将视觉问答中的问题Q转化为陈述句形式;2)将视觉问答任务转化为答案填词任务;3)利用步骤2)中填词任务预测的正确答案中的top‑K答案来分别与图像进行匹配,选择出与图像最相符的词汇来作为图文匹配任务的预测答案;4)结合答案填词和图文匹配任务的预测结果得到答案。本发明提出的方法能够将下游视觉问答任务转化为上游预训练任务形式,从而提高预训练模型泛化到下游视觉问答任务的迁移能力,提升答案预测准确性。
-
公开(公告)号:CN118312588A
公开(公告)日:2024-07-09
申请号:CN202410237190.2
申请日:2024-03-01
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06F16/332 , G06F40/205 , G06V10/25 , G06V10/40 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于目标检测的中间过程监督策略的视觉问答方法,包括以下步骤:1)通过卷积神经网络对视觉图像提取图像特征;2)利用一个编码器‑解码器网络模型将带回答的问题解析为程序树;3)通过程序执行网络获得每个执行步骤对应的中间监督信号;图像特征和L层的程序树,程序执行从第1层到第L层进行逐步推理,基于图像特征获取答案。本发明从问题中解析出执行程序,然后在场景图上执行逐步推理,生成完整的中间结果。本发明利用中间结果对视觉问答模型进行中间过程监督。本发明为推理过程提供了更全面的监督信号,从而提高了答案预测性能。
-
公开(公告)号:CN114691847A
公开(公告)日:2022-07-01
申请号:CN202210231121.1
申请日:2022-03-10
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于深度感知与语义引导的关系注意力网络视觉问答方法,包括以下步骤:1)图像目标之间的三维空间关系构建;得到图像目标之间的三维空间关系;2)根据图像目标之间的三维空间关系,获取图像目标i和j之间在空间维度的相关性分数;3)结合隐式注意力和显式注意力,获取图像目标i和j之间的相关性;4)根据Transformer的框架,采用改进后的注意力机制替换传统的自注意力层,获得视觉问答模型。本发明将三维空间的相关性引入到传统的自注意力机制上,提高视觉问答的准确性。
-
-
-
-
-