摘要
尽管Chain-of-Thought(CoT)提示方法显著提升了多模态大语言模型(MLLMs)的推理能力,但仅依赖线性文本序列在复杂任务中仍存在瓶颈。本文观察到,即使在辅助视觉元素被交错使用时,它们通常也被视为一维、无结构推理链中的静态快照。我们提出,现有方法将推理历史视为不可变的流:纠正局部错误需要生成冗长的下游修正或重新生成整个上下文,这迫使模型隐式地维护和跟踪状态更新,显著增加了token消耗和认知负担。这一限制在高维领域(如几何和SVG设计)尤为明显,因为CoT的文本表达缺乏显式的视觉指导,进一步限制了模型的推理精度。为弥补这一差距,我们引入了Canvas-of-Thought(Canvas-CoT)。通过利用HTML Canvas作为外部推理基质,Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订,使模型能够显式维护“真实状态”。此外,我们集成了一个基于渲染的批评循环,作为硬约束验证器,提供显式视觉反馈,以解决仅靠文本难以描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明,Canvas-CoT显著优于现有基线,确立了一种新的上下文高效多模态推理范式。
AI 推荐理由
论文核心聚焦于提升LLM的推理能力,提出Canvas-CoT架构以改进复杂任务中的推理效率与精度。
论文信息