摘要
大语言模型(LLMs)虽在多种任务中表现卓越,却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求,易导致效用下降与灾难性遗忘。为此,本文提出FIT框架,通过严格的数据过滤(Filtering)、重要性感知更新(Importance-aware updates)和目标层归因(Targeted layer attribution),在大量连续删除请求下有效平衡遗忘效果与效用保留,并抵御遗忘后恢复攻击。作者还构建了PCH基准,涵盖个人信息、版权与有害内容的序列删除场景,并引入对称指标“遗忘度”(F.D.)与“保留效用”(R.U.)进行综合评估。实验表明,FIT在四个开源LLM上均取得最优权衡,并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。
AI 推荐理由
涉及持续学习中的遗忘与记忆保留机制,属记忆相关但非核心Agent Memory架构研究。
论文信息