推理训练 无验证学习 自生成推理 语言模型优化
摘要

当前训练大型推理模型的主流范式结合了监督微调(SFT)与基于可验证奖励的强化学习(RLVR),但其依赖高质量的人工标注推理数据和外部验证器,导致数据收集成本高、存在人类认知偏见,并限制了强化学习阶段的应用范围。为克服这些限制,本文提出了一种新的训练框架NRT(原生推理训练),该框架通过仅使用标准问答对让模型自动生成推理过程,从而无需专家编写的示例。NRT将推理过程视为潜在变量,采用统一的训练目标,将推理建模为优化问题,内在奖励那些提高模型生成正确答案可能性的路径。实验表明,NRT在无需验证器的方法中表现最佳,显著优于传统SFT基线和先前的无验证强化学习方法,在复杂推理任务中表现出色且具有较高的鲁棒性。

AI 推荐理由

论文核心研究如何训练模型进行复杂推理,提出NRT框架以提升模型在无验证数据下的推理能力。

论文信息
作者 Yuanfu Wang, Zhixuan Liu, Xiangtian Li, Chaochao Lu, Chao Yang
发布日期 2026-02-12
arXiv ID 2602.11549
相关性评分 10/10 (高度相关)