强化学习 数学推理 自反馈 GRPO LLM优化
摘要

大型语言模型(LLMs)在解决复杂数学问题方面展现出潜力,但其生成的解决方案仍不够准确和一致。强化学习(RL)为对齐这些模型与任务特定奖励提供了框架,从而提高整体质量和可靠性。本文提出迭代组相对策略优化(iGRPO),这是组相对策略优化(GRPO)的两阶段扩展,通过模型生成的草稿实现动态自条件化。第一阶段中,iGRPO采样多个探索性草稿并选择最高奖励的草稿;第二阶段则将最佳草稿附加到原始提示中,并进行基于草稿条件的改进训练。实验表明,iGRPO在多种推理基准测试中均优于GRPO,并在AIME24和AIME25上取得了新的最先进结果。此外,消融实验显示,该方法具有良好的泛化能力,并能延迟熵崩溃,进一步验证了其有效性。

AI 推荐理由

论文聚焦于提升LLM在数学推理中的准确性,提出基于自反馈的强化学习方法,直接关联推理能力提升。

论文信息
作者 Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han et al.
发布日期 2026-02-09
arXiv ID 2602.09000
相关性评分 9/10 (高度相关)