强化学习 推理能力 概率框架 RLVR 多步任务
摘要

强化学习与可验证奖励(RLVR)是否赋予大语言模型新的能力,抑或仅激发了潜在能力,仍是核心争议。本文支持前者观点,提出一种概率框架,将能力定义为实例级可解性。我们假设复杂推理的出现可通过增强原子步骤的概率实现,从而克服多步推理链中成功率指数衰减的问题。利用Algebrarium框架,我们在单步操作上训练模型,并在未见过的多步任务上评估其性能。实证结果表明:(1) RLVR通过放大模型现有技能,激励探索之前无法访问的解决方案路径;(2) 复合性能严格受原子步骤联合概率支配,高皮尔逊相关系数(ρ∈[0.69, 0.96])佐证此点;(3) RLVR作为全局优化器,可能导致特定技能被牺牲以最大化总体奖励。本研究为RLVR中涌现能力提供了新解释,表明通过可解问题的迭代优化,模型能够发展出解决此前不可解场景的能力。

AI 推荐理由

论文聚焦于强化学习中推理能力的涌现机制,探讨原子步骤概率优化对复杂推理的影响。

论文信息
作者 Zhilin Wang, Yafu Li, Shunkai Zhang, Zhi Wang, Haoran Zhang et al.
发布日期 2026-02-09
arXiv ID 2602.08281
相关性评分 9/10 (高度相关)