强化学习 推理能力 训练动态 组合推理 傅里叶分析
摘要

可验证奖励的强化学习(RLVR)是近期大型推理模型取得突破的主要驱动力。然而,仅基于最终结果的奖励如何帮助克服长时序推理障碍仍不清楚。为了解决这一问题,本文提出了一个针对变压器模型在组合推理任务中训练动态的理论。该理论表明,RLVR的效果由难度光谱的平滑性决定。当数据包含难度的突变时,学习过程会出现类似grokking的相变,导致进展前出现长期停滞;而平滑的难度分布则会产生接力效应:通过持续解决简单问题,模型能力逐步提升,从而能够处理更复杂的问题,实现稳定且连续的改进。该理论解释了RLVR如何在能力边缘提升性能,并指出适当设计的数据混合可以带来可扩展的收益。技术上,本文将有限群上的傅里叶分析工具应用于当前场景,并通过合成实验验证了预测机制。

AI 推荐理由

论文聚焦于强化学习在组合推理任务中的训练动态,直接涉及LLM的推理能力提升机制。

论文信息
作者 Yu Huang, Zixin Wen, Yuejie Chi, Yuting Wei, Aarti Singh et al.
发布日期 2026-02-16
arXiv ID 2602.14872
相关性评分 9/10 (高度相关)