进化策略导致大语言模型中的灾难性遗忘

摘要

当前人工智能系统缺乏部署后持续学习的能力，而实现此类系统面临诸多挑战，其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略（ES）作为一种无梯度替代方法近期重新受到关注，并在特定任务中展现出良好性能。本文对ES进行了全面分析，重点评估其在不断增加更新步数下的遗忘曲线。研究发现，在相近计算预算下，ES在数学与推理任务上可接近GRPO的性能，但其性能提升伴随着对先前能力的显著遗忘，限制了其在线训练适用性。进一步分析表明，ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级，解释了二者遗忘行为的差异。

AI 推荐理由

研究持续学习中的遗忘问题，涉及记忆保持机制。

论文信息

作者 Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.

发布日期 2026-01-28

arXiv ID 2601.20861