强化学习 多领域推理 模型合并 可验证奖励 LLM推理能力
摘要

可验证奖励强化学习(RLVR)在激发大语言模型(LLMs)显式推理能力方面起着关键作用。通过RLVR,我们可以在某些特定领域(如编程或数学)实现专家级性能。当需要构建一个通用的多领域专家级模型时,必须仔细考虑跨不同领域的RLVR协作。当前最先进的模型主要采用两种不同的训练范式进行多领域RLVR:混合多任务RLVR和独立RLVR后合并模型。然而,大多数工作并未对这些范式进行详细比较和分析。为此,我们选择了多个常用的高层任务(如数学、编程、科学和指令遵循)作为目标领域,并使用开源数据集设计了广泛的定性和定量实验。我们发现跨领域的RLVR表现出很少的相互干扰,而推理密集型领域则表现出相互协同效应。此外,我们从权重空间几何、模型预测行为和信息约束的角度分析了这种互惠效应的内部机制。该项目命名为M2RL,意为混合多任务训练或独立训练后合并的强化学习方法。

AI 推荐理由

论文聚焦于强化学习对LLM推理能力的提升,涉及多领域推理协同与互惠效应,是推理能力的核心研究。

论文信息
作者 Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li et al.
发布日期 2026-02-13
arXiv ID 2602.12566
相关性评分 9/10 (高度相关)