RAG 视觉语言模型
摘要

尽管检索增强生成(RAG)是提升大视觉语言模型(LVLMs)在知识型视觉问答任务中表现的主流范式,但近期研究将RAG失败归因于对检索上下文的注意力不足,并建议减少分配给图像标记的注意力。本文识别出一种先前被忽视的失败模式——注意力分散(Attention Distraction, AD):当检索到的上下文充分时,其文本内容会全局抑制视觉注意力,导致模型对图像中与问题相关区域的关注减弱,从而在原本无需检索即可正确回答的问题上出现错误。为此,作者提出MAD-RAG方法,一种无需训练的干预策略,通过双问题形式解耦视觉定位与上下文整合,并结合注意力混合以保留图像条件证据。在OK-VQA、E-VQA和InfoSeek上的大量实验表明,MAD-RAG在不同模型家族中均显著优于现有基线,最高带来4.76%、9.20%和6.18%的绝对提升,并能修正高达74.68%的失败案例,且计算开销可忽略。

AI 推荐理由

涉及检索增强中的注意力机制,与记忆使用相关但非核心记忆架构研究。

论文信息
作者 Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh et al.
发布日期 2026-01-30
arXiv ID 2602.00344
相关性评分 5/10 (一般相关)