-
公开(公告)号:CN118733846A
公开(公告)日:2024-10-01
申请号:CN202410761024.2
申请日:2024-06-13
Applicant: 中国科学院自动化研究所
IPC: G06F16/9032 , G06F16/903 , G06V10/25 , G06V10/40 , G06F16/9532 , G06F40/30 , G06F18/213 , G06F18/25
Abstract: 本发明提供一种大语言模型辅助的检索增强视觉问答方法,包括:获取待查询图像,以及所述待查询图像对应的待回答问题;对所述待查询图像和所述待回答问题进行实体匹配处理,得到所述待查询图像中与所述待回答问题相关的目标实体信息;基于所述目标实体信息对所述待查询图像进行视觉定位处理,得到所述待查询图像中与所述待回答问题相关联的感兴趣区域;基于所述待回答问题、所述待查询图像和所述感兴趣区域,从知识库中检索得到所述待回答问题的答案。通过对待查询图像中与问题直接相关的感兴趣区域进行准确定位,能够有效提升知识检索结果的准确性。