状态记忆 高效推理
摘要

尽管长链式思维(CoT)推理显著提升了大语言模型(LLMs)在复杂推理任务上的性能,但生成长CoT序列带来的高昂计算与内存开销限制了其效率与实用性。现有方法通常通过压缩CoT序列提升效率,但这与测试时扩展相冲突,制约了模型的推理能力。本文提出一种高效推理框架,将LLM的推理过程建模为状态转移过程:首先利用线性注意力机制估计记录历史推理信息的“推理状态”;随后基于查询提示与该状态执行当前推理步骤并更新状态。借助线性注意力,当前步骤中的每个token可直接从状态中检索相关历史信息,无需显式关注先前步骤的token,从而将注意力计算复杂度从二次降至线性,大幅提升推理效率。此外,本文还提出基于状态的推理策略以缓解噪声推理步骤导致的过度思考问题。大量实验表明,该框架不仅提高了LLM的推理效率,还增强了其推理性能。

AI 推荐理由

提出状态转移机制显式建模并维护历史推理信息,属于记忆机制的关键应用。

论文信息
作者 Liang Zhang, Yu Zhao, Longyue Wang, Tianqi Shi, Weihua Luo et al.
发布日期 2026-02-01
arXiv ID 2602.01198
相关性评分 8/10 (高度相关)