知识蒸馏 逆强化学习 推理能力 奖励函数建模
摘要

随着大语言模型(LLMs)规模和复杂性的增加,知识蒸馏(KD)变得愈发重要。现有方法主要关注模仿教师模型的行为,却忽视了塑造教师知识的原始学习环境。受经验学习理论和逆强化学习启发,本文提出了一种名为X-KD的新型通用框架,使学生模型能够在教师的原始学习环境中进行学习。X-KD采用近似变分奖励模仿学习(AVRIL)框架,联合建模教师的原始奖励函数并执行策略蒸馏,鼓励学生策略与原始奖励函数之间的一致性。实验结果表明,X-KD在抽象摘要、机器翻译和算术推理任务上优于通用KD和MiniLLM基线方法,并在性能-多样性权衡和数据效率方面表现更优。

AI 推荐理由

论文提出了一种新的知识蒸馏方法,强调推理过程与奖励函数的一致性,直接关联到LLM的推理能力提升。

论文信息
作者 Yuang Cai, Yuyu Yuan
发布日期 2026-02-13
arXiv ID 2602.12674
相关性评分 8/10 (高度相关)