灾难性遗忘 持续学习
摘要

当前人工智能系统缺乏部署后持续学习的能力,而实现此类系统面临诸多挑战,其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略(ES)作为一种无梯度替代方法近期重新受到关注,并在特定任务中展现出良好性能。本文对ES进行了全面分析,重点评估其在不断增加更新步数下的遗忘曲线。研究发现,在相近计算预算下,ES在数学与推理任务上可接近GRPO的性能,但其性能提升伴随着对先前能力的显著遗忘,限制了其在线训练适用性。进一步分析表明,ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级,解释了二者遗忘行为的差异。

AI 推荐理由

研究持续学习中的遗忘问题,涉及记忆保持机制。

论文信息
作者 Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.
发布日期 2026-01-28
arXiv ID 2601.20861
相关性评分 6/10 (相关)