知识蒸馏 推理前缀 策略优化 模型压缩
摘要

策略蒸馏(OPD)通过从学生模型中采样轨迹,并在标记级别上由教师模型监督,避免仅依赖可验证的终端奖励,从而实现比离线策略蒸馏更好的泛化能力。然而,OPD需要在训练过程中昂贵地实时采样学生策略,这显著增加了训练成本,尤其是在长响应情况下。我们的初步分析表明,在OPD过程中,训练信号通常集中在每个输出的前缀部分,即使是一个简短的教师生成前缀也能显著帮助学生生成正确答案。受此启发,我们提出了一种简单而有效的OPD改进方法:仅对学生的输出前缀应用蒸馏目标,并在蒸馏过程中提前终止采样。在一系列AI-for-Math和领域外基准测试中的实验表明,策略前缀蒸馏在性能上与完整的OPD相当,同时将训练FLOP减少了2至47倍。

AI 推荐理由

论文聚焦于通过推理前缀进行知识蒸馏,直接关联到LLM的推理能力提升。

论文信息
作者 Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler et al.
发布日期 2026-02-16
arXiv ID 2602.15260
相关性评分 9/10 (高度相关)