摘要
尽管基于模型的验证器对于扩展具有可验证奖励的强化学习(RLVR)至关重要,但当前以结果为中心的验证范式主要关注最终结果与真实值之间的一致性,常常忽视推导过程中的潜在错误。这导致了从错误推导中得出正确答案时仍被赋予正奖励。为弥补这一差距,我们引入了PRIME,一个用于评估数学和工程领域中过程-结果对齐验证的基准。PRIME通过基于一致性的过滤流程,从大量大学水平的STEM问题中精选出2530个高难度样本。通过广泛评估,我们发现当前验证器经常无法检测到推导缺陷。此外,我们提出了一种基于过程感知的RLVR训练范式,利用PRIME筛选出的验证器进行训练。该方法显著优于仅基于结果的验证基线,在Qwen3-14B-Base模型上分别实现了8.29%、9.12%和7.31%的绝对性能提升。最后,我们展示了验证器在PRIME上的准确性与RLVR训练效果之间的强线性相关性(R² > 0.92),验证了PRIME作为验证器选择可靠预测工具的有效性。
AI 推荐理由
论文聚焦于数学与工程中的可验证推理过程,强调推理过程与结果的一致性,直接关联到推理能力的评估与改进。
论文信息