强化学习 监督微调 推理优化 模型效率 链式推理
摘要

大型推理模型(LRMs)通常通过强化学习(RL)进行训练,以探索长链式推理,但这种方法计算成本较高。近期方法引入多奖励目标以联合优化正确性和简洁性,但这些复杂扩展常导致训练不稳定并产生次优权衡。本文重新审视这一目标,并质疑其复杂性的必要性。通过原理分析,我们发现该范式中存在根本性偏差:当正确性和长度可以直接验证时,KL正则化失去了其预期作用,且在多个奖励信号下,分组归一化变得模糊。通过移除这两项并简化奖励为基于截断的长度惩罚,我们将优化问题简化为对经过正确性和简洁性筛选的自生成数据进行监督微调。我们称此简化训练策略为基于策略的监督微调(on-policy SFT)。尽管简单,该方法始终定义了准确率-效率的帕累托前沿。它在保持原始准确率的同时将思维链长度减少高达80%,并在五个基准测试中超越了更复杂的基于强化学习的方法。此外,它显著提升了训练效率,减少了50%的GPU内存使用并加速了70%的收敛速度。

AI 推荐理由

论文聚焦于提升大模型的推理效率与准确性,直接涉及推理能力优化。

论文信息
作者 Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye et al.
发布日期 2026-02-13
arXiv ID 2602.13407
相关性评分 10/10 (高度相关)