强化学习 可验证奖励 推理能力 上下文老虎机 展开调度
摘要

可验证奖励强化学习(RLVR)是一种有效提升大语言模型推理能力的范式。然而,现有RLVR方法在使用展开策略时存在短视和无差别处理的问题:每个提示中的异质响应质量被统一对待,历史展开结果仅使用一次后即被丢弃,导致监督噪声大、样本效率低和策略更新次优。本文将RLVR中的展开调度建模为上下文老虎机问题,并提出一个统一的神经调度框架,在训练过程中自适应选择高价值的展开。每个展开被视为一个臂,其奖励由连续优化步骤间的性能增益定义。该调度器支持噪声感知的组内选择和历史展开的全局自适应重用。理论分析表明,扩展展开缓冲区可以提高性能上限。实验在六个数学推理基准上验证了该方法在多个RLVR优化方法中的一致性能提升和训练效率改进。

AI 推荐理由

论文聚焦于通过强化学习提升大语言模型的推理能力,直接关联到推理能力这一主题。

论文信息
作者 Xiaodong Lu, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin et al.
发布日期 2026-02-09
arXiv ID 2602.08499
相关性评分 9/10 (高度相关)