持续学习 安全对齐 模型能力保持 正交投影
摘要

大型语言模型(LLMs)在安全微调过程中常面临对齐税问题,即安全性提升会损害通用能力(如推理和编码)。本文认为,这种现象主要源于连续学习中的遗忘问题,安全更新可能覆盖预训练能力。为此,作者将安全对齐视为持续学习问题,提出正交梯度投影用于安全对齐(OGPSA),通过约束安全更新方向与能力子空间正交,减少干扰并保留原有能力。实验表明,OGPSA在多种微调设置中显著提升了安全性和实用性平衡。

AI 推荐理由

论文聚焦于LLM在安全对齐过程中的持续学习问题,涉及模型能力的保持与更新机制,属于自我进化范畴。

论文信息
作者 Guanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su et al.
发布日期 2026-02-08
arXiv ID 2602.07892
相关性评分 8/10 (高度相关)