推理优化 早期停止 计算效率 大语言模型
摘要

大型推理模型(LRMs)通过生成长链式推理实现最先进的性能,但常常在正确答案已得出后仍浪费计算资源进行冗余推理。本文提出了一种名为ESTAR的早期停止词感知推理方法,旨在检测并减少此类冗余推理以提高效率而不牺牲准确性。该方法结合了基于轨迹的分类器以识别安全停止推理的时间点、监督微调以训练LRMs自动生成信号,以及基于的强化学习以在自动生成的停止点截断推理过程,并使用计算感知奖励机制。在四个推理数据集上的实验表明,ESTAR将推理长度减少了约3.7倍(从4,799降至1,290),同时保持了准确率(74.9% vs. 74.2%),并且具有较强的跨领域泛化能力。这些结果突显了早期停止作为提升LRMs推理效率的一种简单而强大的机制。

AI 推荐理由

论文聚焦于提升大模型推理效率,直接涉及推理过程中的冗余检测与优化。

论文信息
作者 Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman
发布日期 2026-02-10
arXiv ID 2602.10004
相关性评分 10/10 (高度相关)