持续学习 模型遗忘
摘要

大语言模型(LLMs)虽在多种任务中表现卓越,却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求,易导致效用下降与灾难性遗忘。为此,本文提出FIT框架,通过严格的数据过滤(Filtering)、重要性感知更新(Importance-aware updates)和目标层归因(Targeted layer attribution),在大量连续删除请求下有效平衡遗忘效果与效用保留,并抵御遗忘后恢复攻击。作者还构建了PCH基准,涵盖个人信息、版权与有害内容的序列删除场景,并引入对称指标“遗忘度”(F.D.)与“保留效用”(R.U.)进行综合评估。实验表明,FIT在四个开源LLM上均取得最优权衡,并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。

AI 推荐理由

涉及持续学习中的遗忘与记忆保留机制,属记忆相关但非核心Agent Memory架构研究。

论文信息
作者 Xiaoyu Xu, Minxin Du, Kun Fang, Zi Liang, Yaxin Xiao et al.
发布日期 2026-01-29
arXiv ID 2601.21682
相关性评分 6/10 (相关)