知识遗忘 激活签名
摘要

从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要,但现有遗忘方法常将行为抑制误认为真正知识移除,导致潜在能力仍存。本文提出知识免疫框架(KIF),通过靶向内部激活签名而非表面输出,区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配,在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果,突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型,揭示不同架构在遗忘行为上的根本差异,并提出结合表面泄露与潜在痕迹的双指标评估协议,首次系统诊断跨模型家族与规模的机制级遗忘行为。

AI 推荐理由

涉及模型内部表征的遗忘机制,与记忆擦除相关但非Agent Memory核心。

论文信息
作者 Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.
发布日期 2026-01-15
arXiv ID 2601.10566
相关性评分 6/10 (相关)