机器遗忘 大语言模型安全
摘要

尽管大语言模型(LLMs)展现出卓越能力,却会无意中记忆敏感数据,带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键,但现有方法面临根本困境:激进遗忘易导致灾难性遗忘而损害模型效用,保守策略则可能仅实现表面遗忘,仍易受对抗恢复攻击。为此,本文提出AGT$^{AO}$(对抗门控训练与自适应正交性)统一框架,兼顾鲁棒擦除与效用保持。该方法引入自适应正交性(AO)动态缓解遗忘与保留目标间的梯度冲突,减少非预期知识退化;同时通过对抗门控训练(AGT)将遗忘建模为潜在空间的极小-极大博弈,并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明,AGT$^{AO}$在遗忘效果(KUR≈0.01)与模型效用(MMLU 58.30)之间取得优越平衡。

AI 推荐理由

聚焦LLM遗忘机制,涉及记忆删除与保留的权衡,属记忆相关但非Agent专用。

论文信息
作者 Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.
发布日期 2026-02-02
arXiv ID 2602.01703
相关性评分 6/10 (相关)