摘要
多模态大语言模型(MLLMs)在长链推理过程中常因不同知识源提供的冲突信号而失败。本文将这些失败归结为统一的知识冲突概念,并区分输入级客观冲突与过程级有效冲突。通过探测内部表示,研究发现:(I) 线性可分性:不同类型冲突以线性可分特征形式编码;(II) 深度定位:冲突信号集中在中后期层,表明存在专门的冲突编码阶段;(III) 分层一致性:沿轨迹聚合噪声标记信号可稳健恢复输入级冲突类型;(IV) 方向不对称性:强化模型隐含的来源偏好比强制相反来源容易得多。研究从机制层面揭示了多模态推理中知识冲突的处理方式,并为长链推理失败提供了原理性诊断与控制方法。
AI 推荐理由
论文聚焦于多模态大语言模型在长链推理中的知识冲突问题,直接涉及推理能力的机制分析与改进。
论文信息