基于策略的上下文蒸馏用于语言模型

知识蒸馏推理能力数学推理上下文学习

摘要

上下文蒸馏使语言模型能够将上下文知识内化为其参数。在本研究中，我们提出了一种名为On-Policy Context Distillation (OPCD)的框架，该框架通过在学生模型自身生成的轨迹上进行训练，并最小化与基于上下文的教师模型之间的反向Kullback-Leibler散度，将策略蒸馏与上下文蒸馏相结合。我们在两个重要应用中验证了OPCD的有效性：经验知识蒸馏，即模型从历史解决方案中提取并巩固可迁移的知识；以及系统提示蒸馏，即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中，OPCD始终优于基线方法，在提高任务准确性的同时更好地保留了分布外能力。我们进一步表明，OPCD可以实现有效的跨规模蒸馏，较小的学生模型可以从较大的教师模型中内化经验知识。

AI 推荐理由

论文聚焦于语言模型的推理能力提升，通过上下文蒸馏增强模型在数学推理等任务中的表现。

论文信息

作者 Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei

发布日期 2026-02-12

arXiv ID 2602.12275