推理优化 采样范式 强化学习 LLM效率 数学推理
摘要

近年来,大型推理模型(LRMs)通过长链思维(CoTs)显著提升了复杂推理任务的能力。然而,这种方法常导致大量冗余,影响计算效率,并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含知道何时停止思考,但这一能力被当前采样范式所掩盖。为此,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新型采样范式,释放了这种高效的推理潜力。此外,将SAGE作为混合采样集成到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能够有效将SAGE发现的高效推理模式整合到标准pass@1推理中,显著提升多个具有挑战性的数学基准测试中LRMs的推理准确性和效率。

AI 推荐理由

论文聚焦于LLM的推理过程优化,探讨其停止思考的机制并提出改进方法。

论文信息
作者 Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.
发布日期 2026-02-09
arXiv ID 2602.08354
相关性评分 9/10 (高度相关)