你的推理模型是否隐含知道何时停止思考？

推理优化采样范式强化学习 LLM效率数学推理

摘要

近年来，大型推理模型（LRMs）通过长链思维（CoTs）显著提升了复杂推理任务的能力。然而，这种方法常导致大量冗余，影响计算效率，并在实时应用中造成显著延迟。近期研究表明，更长的推理链通常与正确性无关，甚至可能损害准确性。进一步分析发现，LRMs实际上隐含知道何时停止思考，但这一能力被当前采样范式所掩盖。为此，本文提出SAGE（Self-Aware Guided Efficient Reasoning），一种新型采样范式，释放了这种高效的推理潜力。此外，将SAGE作为混合采样集成到基于群体的强化学习（SAGE-RL）中，使SAGE-RL能够有效将SAGE发现的高效推理模式整合到标准pass@1推理中，显著提升多个具有挑战性的数学基准测试中LRMs的推理准确性和效率。

AI 推荐理由

论文聚焦于LLM的推理过程优化，探讨其停止思考的机制并提出改进方法。

论文信息

作者 Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.

发布日期 2026-02-09

arXiv ID 2602.08354