强化学习 推理鲁棒性 迁移学习 LLM训练
摘要

尽管基于可验证奖励的强化学习(RLVR)增强了大语言模型(LLM)的推理能力,但其关注点仅限于最终答案的正确性,忽略了推理过程本身的鲁棒性。本文提出一种哲学观点,即鲁棒推理应超越其生成者的思维,并将其视为一种能够经受截断、重新解释和延续的意义迁移形式。基于此,我们引入了基于可迁移奖励的强化学习(RLTR),通过测试一个模型的部分推理前缀是否能引导另一个模型得出正确答案来衡量推理的鲁棒性。该方法鼓励LLM生成稳定、可解释且真正可推广的推理过程。实验表明,RLTR在采样一致性与最终答案准确性上均有所提升,并且在显著更少的训练步骤内达到与RLVR相当的性能。例如,在MATH500数据集上,RLTR在Maj@64指标上比RLVR提升了3.6个百分点,并且仅用约2.5倍的训练步数就达到了RLVR的平均准确率。

AI 推荐理由

论文聚焦于增强LLM的推理鲁棒性,提出新的训练方法以提升推理过程的稳定性和可迁移性。

论文信息
作者 Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
发布日期 2026-02-09
arXiv ID 2602.08489
相关性评分 9/10 (高度相关)