视觉心像 多模态大语言模型
摘要

多模态大语言模型(MLLMs)在开放词汇感知任务中表现卓越,但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链(CoT)推理,忽视了类人视觉空间画板与视觉心像机制。为此,本文提出“认知超感知”训练范式,通过引入潜在视觉心像预测(LVIP)头,联合学习视觉认知潜在嵌入序列并将其与答案对齐,构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准,涵盖五个认知维度。实验表明,该方法显著优于现有基线,并在域外数学与科学VQA任务中展现更强泛化能力,表明内部视觉心像可能是连接感知识别与认知理解的关键。

AI 推荐理由

提出视觉心像机制,模拟人类视觉记忆,但未直接研究Agent Memory架构。

论文信息
作者 Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.
发布日期 2026-02-02
arXiv ID 2602.01541
相关性评分 7/10 (相关)