摘要
当前人工智能系统缺乏部署后持续学习的能力,而实现此类系统面临诸多挑战,其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略(ES)作为一种无梯度替代方法近期重新受到关注,并在特定任务中展现出良好性能。本文对ES进行了全面分析,重点评估其在不断增加更新步数下的遗忘曲线。研究发现,在相近计算预算下,ES在数学与推理任务上可接近GRPO的性能,但其性能提升伴随着对先前能力的显著遗忘,限制了其在线训练适用性。进一步分析表明,ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级,解释了二者遗忘行为的差异。
AI 推荐理由
研究持续学习中的遗忘问题,涉及记忆保持机制。
论文信息