数据重复优于数据扩展：在长链推理监督微调中的应用

监督微调链式推理重复训练泛化能力标记准确率

摘要

链式推理数据的监督微调（SFT）是推理语言模型的重要后训练步骤。通常认为更多独特的训练样本能带来更好的泛化效果。然而，本文发现重复训练在固定更新预算下表现更优：在较小数据集上进行更多轮次训练，比在更大数据集上单轮训练效果更好。实验表明，在AIME'24/25和GPQA基准测试中，Olmo3-7B模型在400个样本上训练128轮，比在51200个样本上训练1轮高出12-26个百分点，且没有额外的灾难性遗忘。研究发现，训练时的标记准确率可以可靠地指示重复训练是否达到饱和；当完全记忆时，额外轮次带来的改进趋于稳定。这些发现为推理SFT提供了一种实用方法，即以标记准确率为停止标准来替代昂贵的数据扩展。本文将重复训练的优势视为一个新问题，提出当完全记忆与泛化能力提升一致时，有助于理解大语言模型的训练动态。

AI 推荐理由

论文聚焦于链式推理数据的监督微调，探讨如何通过重复训练提升推理模型性能，直接关联推理能力的优化。

论文信息

作者 Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano

发布日期 2026-02-11

arXiv ID 2602.11149