摘要
尽管大语言模型(LLMs)展现出卓越能力,却会无意中记忆敏感数据,带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键,但现有方法面临根本困境:激进遗忘易导致灾难性遗忘而损害模型效用,保守策略则可能仅实现表面遗忘,仍易受对抗恢复攻击。为此,本文提出AGT$^{AO}$(对抗门控训练与自适应正交性)统一框架,兼顾鲁棒擦除与效用保持。该方法引入自适应正交性(AO)动态缓解遗忘与保留目标间的梯度冲突,减少非预期知识退化;同时通过对抗门控训练(AGT)将遗忘建模为潜在空间的极小-极大博弈,并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明,AGT$^{AO}$在遗忘效果(KUR≈0.01)与模型效用(MMLU 58.30)之间取得优越平衡。
AI 推荐理由
聚焦LLM遗忘机制,涉及记忆删除与保留的权衡,属记忆相关但非Agent专用。
论文信息