摘要
过程奖励在深度强化学习中被广泛用于提高训练效率、减少方差并防止奖励黑客行为。在LLM推理中,现有研究也探索了各种方法来学习有效的过程奖励模型(PRM),有或没有专家策略的帮助。然而,现有方法要么依赖于对专家策略的强假设(例如要求其奖励函数),要么存在内在限制(例如熵崩溃),导致PRM效果较弱或泛化能力有限。本文提出rePIRL,一个受逆向强化学习启发的框架,在对专家策略的假设最少的情况下学习有效的PRM。具体而言,我们设计了一个双学习过程,交替更新策略和PRM。我们的学习算法采用了定制技术以解决将传统逆向强化学习扩展到LLM时面临的挑战。理论上,我们证明所提出的框架可以统一在线和离线PRM学习方法,表明rePIRL可以在最小假设下学习PRM。在标准化数学和编码推理数据集上的实证评估展示了rePIRL相比现有方法的有效性。此外,我们展示了训练好的PRM在测试时训练、测试时扩展以及为训练困难问题提供早期信号方面的应用。最后,我们通过详细的消融研究验证了训练方案和关键设计选择。
AI 推荐理由
论文聚焦于提升LLM推理能力的PRM学习,直接涉及推理过程中的奖励建模与优化。
论文信息