摘要
上下文蒸馏使语言模型能够将上下文知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,该框架通过在学生模型自身生成的轨迹上进行训练,并最小化与基于上下文的教师模型之间的反向Kullback-Leibler散度,将策略蒸馏与上下文蒸馏相结合。我们在两个重要应用中验证了OPCD的有效性:经验知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;以及系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。我们进一步表明,OPCD可以实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验知识。
AI 推荐理由
论文聚焦于语言模型的推理能力提升,通过上下文蒸馏增强模型在数学推理等任务中的表现。
论文信息