摘要
多模态大语言模型(MLLMs)在开放词汇感知任务中表现卓越,但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链(CoT)推理,忽视了类人视觉空间画板与视觉心像机制。为此,本文提出“认知超感知”训练范式,通过引入潜在视觉心像预测(LVIP)头,联合学习视觉认知潜在嵌入序列并将其与答案对齐,构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准,涵盖五个认知维度。实验表明,该方法显著优于现有基线,并在域外数学与科学VQA任务中展现更强泛化能力,表明内部视觉心像可能是连接感知识别与认知理解的关键。
AI 推荐理由
提出视觉心像机制,模拟人类视觉记忆,但未直接研究Agent Memory架构。
论文信息