摘要
近年来,大型推理模型(LRMs)通过长链思维(CoTs)显著提升了复杂推理任务的能力。然而,这种方法常导致大量冗余,影响计算效率,并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含知道何时停止思考,但这一能力被当前采样范式所掩盖。为此,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新型采样范式,释放了这种高效的推理潜力。此外,将SAGE作为混合采样集成到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能够有效将SAGE发现的高效推理模式整合到标准pass@1推理中,显著提升多个具有挑战性的数学基准测试中LRMs的推理准确性和效率。
AI 推荐理由
论文聚焦于LLM的推理过程优化,探讨其停止思考的机制并提出改进方法。
论文信息