AGT$^{AO}$：基于对抗门控训练与自适应正交性的鲁棒稳定大语言模型遗忘方法

摘要

尽管大语言模型（LLMs）展现出卓越能力，却会无意中记忆敏感数据，带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键，但现有方法面临根本困境：激进遗忘易导致灾难性遗忘而损害模型效用，保守策略则可能仅实现表面遗忘，仍易受对抗恢复攻击。为此，本文提出AGT$^{AO}$（对抗门控训练与自适应正交性）统一框架，兼顾鲁棒擦除与效用保持。该方法引入自适应正交性（AO）动态缓解遗忘与保留目标间的梯度冲突，减少非预期知识退化；同时通过对抗门控训练（AGT）将遗忘建模为潜在空间的极小-极大博弈，并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明，AGT$^{AO}$在遗忘效果（KUR≈0.01）与模型效用（MMLU 58.30）之间取得优越平衡。

AI 推荐理由

聚焦LLM遗忘机制，涉及记忆删除与保留的权衡，属记忆相关但非Agent专用。

论文信息

作者 Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.

发布日期 2026-02-02

arXiv ID 2602.01703