强化学习 推理长度 思维链 效率优化
摘要

强化学习显著提升了大语言模型的推理能力,但也倾向于延长思维链输出并增加训练和推理阶段的计算成本。尽管已有长度控制方法被提出,但最佳输出长度以平衡效率与性能仍不清楚。在本研究中,我们在两个模型Qwen3-1.7B Base和DeepSeek-R1-Distill-Qwen-1.5B上比较了多种长度控制方法。结果表明,长度惩罚可能会阻碍推理能力的获取,而适当调整的长度控制可以提升具有强先验推理能力模型的效率。通过将先前工作扩展到强化学习训练的策略中,我们识别出两种失效模式:1)长输出会增加分散性;2)短输出会导致思考不足。

AI 推荐理由

论文聚焦于强化学习训练的语言模型的推理长度优化,直接涉及推理能力的核心问题。

论文信息
作者 Daisuke Nohara, Taishi Nakamura, Rio Yokota
发布日期 2026-02-10
arXiv ID 2602.09591
相关性评分 9/10 (高度相关)