摘要
通过扩展推理时的计算量,长链式推理(Chain-of-Thought)显著提升了模型的推理能力,但由于键值缓存线性增长和注意力复杂度二次增长,其面临实际限制。本文提出Accordion-Thinking,一种端到端框架,使LLM能够通过动态摘要自我调节推理步骤的粒度。该机制支持Fold推理模式,模型定期对其思考过程进行摘要并丢弃之前的思考,从而减少对历史token的依赖。我们应用强化学习进一步激励这一能力,发现Fold模式与Unfold模式之间的准确率差距在训练过程中逐渐缩小并最终消失。这表明模型学会了将关键推理信息编码为紧凑摘要,实现推理上下文的有效压缩。我们的Accordion-Thinker证明,在学习自压缩后,LLM可以在不牺牲解的质量的前提下,以极小的历史token开销处理复杂推理任务,并在48GB GPU内存配置下实现3倍的吞吐量,同时结构化的步骤摘要提供了可读的推理过程说明。
AI 推荐理由
论文提出通过动态总结机制减少对历史token的依赖,与Agent Memory相关,但非唯一主题。
论文信息