摘要
随着大语言模型(LLMs)规模和复杂性的增加,知识蒸馏(KD)变得愈发重要。现有方法主要关注模仿教师模型的行为,却忽视了塑造教师知识的原始学习环境。受经验学习理论和逆强化学习启发,本文提出了一种名为X-KD的新型通用框架,使学生模型能够在教师的原始学习环境中进行学习。X-KD采用近似变分奖励模仿学习(AVRIL)框架,联合建模教师的原始奖励函数并执行策略蒸馏,鼓励学生策略与原始奖励函数之间的一致性。实验结果表明,X-KD在抽象摘要、机器翻译和算术推理任务上优于通用KD和MiniLLM基线方法,并在性能-多样性权衡和数据效率方面表现更优。
AI 推荐理由
论文提出了一种新的知识蒸馏方法,强调推理过程与奖励函数的一致性,直接关联到LLM的推理能力提升。
论文信息