摘要
长链思维(Long CoTs)广泛应用于多模态推理模型中,以捕捉详细的视觉信息来解决复杂任务。然而,这些长链思维通常过于冗长且包含重复的推理步骤,可能影响推理效率。压缩这些长链思维是一个自然的解决方案,但现有方法面临两个主要挑战:(1)移除关键对齐线索可能会损害视觉-文本推理的完整性;(2)压缩过程缺乏可解释性,难以判断哪些信息是关键的。为了解决这些问题,我们提出了XMCC,一种可解释的多模态思维链压缩器,将压缩建模为通过强化学习优化的顺序决策过程。XMCC能够在保持关键推理步骤和答案正确性的前提下有效缩短推理轨迹,并同时生成其压缩决策的自然语言解释。在代表性多模态推理基准上的大量实验表明,XMCC不仅减少了推理长度,还提供了可解释的解释,验证了其有效性。
AI 推荐理由
论文聚焦于多模态推理模型中的思维链压缩与可解释性,直接涉及LLM/Agent的推理能力提升。
论文信息