摘要
思维链(Chain-of-Thought, CoT)显著增强了大语言模型(LLMs)的推理能力,尤其是在结合基于强化学习(RL)的后训练方法时。虽然更长的推理过程可以提高答案质量并实现自我纠正等能力,但也带来了高推理成本和冗余步骤的问题,即过度思考。近期研究尝试通过长度感知奖励设计或提示校准来开发高效的推理策略,但这些启发式方法可能面临准确性严重下降和对超参数高度敏感的问题。为了解决这些问题,本文提出了一种基于参考引导约束优化的约束修正训练(Constraint-Rectified Training, CRT)框架,提供了一种更稳定且可解释的高效推理公式。CRT在性能低于参考值时交替最小化推理长度并修正准确性,从而稳定有效地剪枝冗余推理。进一步地,CRT采用两阶段训练方案,首先发现最短可靠的推理模式,然后在学习到的长度预算下优化准确性,防止冗长的CoT重新出现。全面评估表明,该框架在保持答案质量的同时一致减少了token使用量。进一步分析显示,CRT不仅通过缩短响应提高了推理效率,还通过减少内部语言冗余提升了效率,并引入了新的评估指标。此外,基于CRT的训练自然生成了一系列中间检查点,覆盖了不同解释长度但保持正确性的范围,使推理冗长程度的精细控制无需重新训练即可实现。
AI 推荐理由
论文聚焦于提升LLM的推理效率,直接涉及Chain-of-Thought(CoT)机制及优化方法。
论文信息