摘要
链式推理数据的监督微调(SFT)是推理语言模型的重要后训练步骤。通常认为更多独特的训练样本能带来更好的泛化效果。然而,本文发现重复训练在固定更新预算下表现更优:在较小数据集上进行更多轮次训练,比在更大数据集上单轮训练效果更好。实验表明,在AIME'24/25和GPQA基准测试中,Olmo3-7B模型在400个样本上训练128轮,比在51200个样本上训练1轮高出12-26个百分点,且没有额外的灾难性遗忘。研究发现,训练时的标记准确率可以可靠地指示重复训练是否达到饱和;当完全记忆时,额外轮次带来的改进趋于稳定。这些发现为推理SFT提供了一种实用方法,即以标记准确率为停止标准来替代昂贵的数据扩展。本文将重复训练的优势视为一个新问题,提出当完全记忆与泛化能力提升一致时,有助于理解大语言模型的训练动态。
AI 推荐理由
论文聚焦于链式推理数据的监督微调,探讨如何通过重复训练提升推理模型性能,直接关联推理能力的优化。
论文信息