摘要
尽管多模态大语言模型(MLLMs)取得了快速进展,但在正确答案依赖于未见过或替代视角下场景外观的情况下,视觉空间推理仍然不可靠。近期的研究通过引入世界模型进行视觉想象来增强推理能力,但关于何时需要想象、多少想象是有益的以及何时会带来负面影响的问题仍不明确。本文对测试时的视觉想象作为可控资源进行了深入分析,研究了静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为此,我们提出了AVIC框架,该框架在选择性调用和扩展视觉想象之前,显式地推理当前视觉证据的充分性。实验结果表明,在多个空间推理基准(SAT、MMSI)和具身导航基准(R2R)上,想象在某些情况下是关键的、边际的或有害的,并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言,我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。
AI 推荐理由
论文聚焦于视觉空间推理中的想象机制,探讨其必要性与控制策略,属于推理能力的核心研究。
论文信息