摘要
有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统检索增强生成(RAG)方法依赖线性交互历史,难以处理长上下文任务,尤其是在涉及信息稀疏但token密集的视觉数据的迭代推理场景中。为解决这一问题,我们提出了VimRAG框架,专门用于文本、图像和视频的多模态检索增强推理。受系统性研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于此结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆节点的重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃次要线索。为此,我们提出了一种图引导的策略优化方法,该方法通过剪枝与冗余动作相关的记忆节点,将步骤级有效性与轨迹级奖励解耦,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进的性能。
AI 推荐理由
论文聚焦于多模态信息的检索与推理,提出动态图结构建模推理过程,属于推理能力的核心研究。
论文信息