迈向多模态大语言模型中的认知超感知

摘要

多模态大语言模型（MLLMs）在开放词汇感知任务中表现卓越，但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链（CoT）推理，忽视了类人视觉空间画板与视觉心像机制。为此，本文提出“认知超感知”训练范式，通过引入潜在视觉心像预测（LVIP）头，联合学习视觉认知潜在嵌入序列并将其与答案对齐，构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准，涵盖五个认知维度。实验表明，该方法显著优于现有基线，并在域外数学与科学VQA任务中展现更强泛化能力，表明内部视觉心像可能是连接感知识别与认知理解的关键。

AI 推荐理由

提出视觉心像机制，模拟人类视觉记忆，但未直接研究Agent Memory架构。

论文信息

作者 Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.

发布日期 2026-02-02

arXiv ID 2602.01541