监督微调 链式推理 重复训练 泛化能力 标记准确率
摘要

链式推理数据的监督微调(SFT)是推理语言模型的重要后训练步骤。通常认为更多独特的训练样本能带来更好的泛化效果。然而,本文发现重复训练在固定更新预算下表现更优:在较小数据集上进行更多轮次训练,比在更大数据集上单轮训练效果更好。实验表明,在AIME'24/25和GPQA基准测试中,Olmo3-7B模型在400个样本上训练128轮,比在51200个样本上训练1轮高出12-26个百分点,且没有额外的灾难性遗忘。研究发现,训练时的标记准确率可以可靠地指示重复训练是否达到饱和;当完全记忆时,额外轮次带来的改进趋于稳定。这些发现为推理SFT提供了一种实用方法,即以标记准确率为停止标准来替代昂贵的数据扩展。本文将重复训练的优势视为一个新问题,提出当完全记忆与泛化能力提升一致时,有助于理解大语言模型的训练动态。

AI 推荐理由

论文聚焦于链式推理数据的监督微调,探讨如何通过重复训练提升推理模型性能,直接关联推理能力的优化。

论文信息
作者 Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
发布日期 2026-02-11
arXiv ID 2602.11149
相关性评分 9/10 (高度相关)