基于检索增强的多模态提示学习方法

    公开(公告)号:CN119540717A

    公开(公告)日:2025-02-28

    申请号:CN202411534499.4

    申请日:2024-10-30

    Inventor: 楼俊钢 宋向 王胤

    Abstract: 本发明公开了基于检索增强的多模态提示学习方法,能够同时对齐VLMs的文本编码器和视觉编码器,采用检索增强策略,通过交叉注意力机制(Cross‑Attention)捕获跨模态信息,实现高效的多模态交互,基于跨模态信息生成自适应嵌入提示,以灵活对齐多模态表示空间,引入了可学习向量库(LTL),进一步优化提示生成效果,确保在各种场景中的卓越性能,能够通过检索增强策略和跨模态协同感知技术增强自适应提示的准确性,并结合可学习向量库,实现多模态信息的高效交互,降低微调所需的计算资源,显著提升了模型的泛化能力和复杂任务的处理性能,为大规模预训练VLMs的高效适应与优化提供了新的解决方案。

Patent Agency Ranking