-
公开(公告)号:CN111046966B
公开(公告)日:2022-04-05
申请号:CN201911306345.9
申请日:2019-12-18
Applicant: 江南大学
IPC: G06V10/44 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04
Abstract: 基于度量注意力机制的图像字幕生成方法,属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕,然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异,对于符合阈值的输出,不符合阈值的,利用本发明提出的注意力模块,该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。
-
公开(公告)号:CN111046966A
公开(公告)日:2020-04-21
申请号:CN201911306345.9
申请日:2019-12-18
Applicant: 江南大学
Abstract: 基于度量注意力机制的图像字幕生成方法,属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕,然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异,对于符合阈值的输出,不符合阈值的,利用本发明提出的注意力模块,该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。
-