强化学习 推理能力 课程学习 GRPO 任务难度调整
摘要

强化学习已被证明是解锁大语言模型推理能力的一种强大范式。然而,依赖稀疏奖励使得这一过程高度样本低效,因为模型必须在缺乏反馈的情况下遍历巨大的搜索空间。尽管经典的课程学习旨在通过按复杂度排序数据来缓解这一问题,但对特定模型而言,合适的排序往往不明确。为了解决这一问题,我们提出了Goldilocks,一种新颖的教师驱动的数据采样策略,旨在预测学生模型对每个问题的难度。教师模型选择适合学生模型难度的问题(即既不太简单也不太困难),并在训练学生模型时使用GRPO方法。通过利用学生模型在已见样本上的表现,教师模型持续适应学生能力的变化。在OpenMathReasoning数据集上,Goldilocks数据采样策略在相同计算预算下提升了标准GRPO训练模型的性能。

AI 推荐理由

论文聚焦于通过强化学习提升LLM的推理能力,并提出针对性的数据采样策略。

论文信息
作者 Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe
发布日期 2026-02-16
arXiv ID 2602.14868
相关性评分 9/10 (高度相关)