摘要
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的主流范式,但其对外部验证器的依赖限制了其可扩展性。近期研究表明,RLVR主要通过激发模型潜在能力起作用,这促使了无验证器算法的发展。然而,在这种设置下,标准方法如组相对策略优化面临关键挑战:破坏性的梯度方差常导致训练崩溃。为了解决这一问题,我们提出了无验证器课程强化学习(VI-CuRL),该框架利用模型的内在置信度构建独立于外部验证器的课程。通过优先处理高置信度样本,VI-CuRL有效管理偏差-方差权衡,特别针对动作和问题方差的减少。我们提供了严格的理论分析,证明我们的估计器保证了渐近无偏性。实证表明,VI-CuRL在六个具有挑战性的基准测试中促进了稳定性,并在有/无验证器的情况下始终优于无验证器基线。
AI 推荐理由
论文聚焦于增强LLM推理能力的RLVR方法,提出新的框架解决训练稳定性问题。
论文信息