摘要
预训练后的大型语言模型(LLMs)具备多种有用的技能,如指令遵循和推理能力。然而,这些模型的知识仅涵盖截止日期前的内容,需要持续适应。现有方法无法同时从适应文档语料库中学习新知识并缓解早期技能遗忘。为此,本文提出基于上下文蒸馏的持续知识适应方法DiSC。该方法通过在训练样例的不同片段上生成学生和教师分布,并最小化共享标记之间的KL散度,从而高效应用上下文蒸馏而无需显式生成步骤。实验表明,与先前的微调和蒸馏方法相比,DiSC在学习新知识和减少先前技能遗忘之间取得了最佳平衡。
AI 推荐理由
论文聚焦于LLM的持续适应与知识更新,直接涉及自我进化和持续学习机制。
论文信息