摘要
基础模型的状态无关性限制了代理系统持续学习的能力,这是长期推理和适应性的核心能力。为解决这一问题,代理系统通常引入记忆模块以保留和重用过去经验,从而实现在测试时的持续学习。然而,现有记忆设计多为人工制定且固定,难以适应真实任务的多样性和非平稳性。本文提出ALMA框架,通过元学习自动优化记忆设计,取代人工设计的记忆模块,减少人力投入,并使代理系统能够在不同领域中成为持续学习者。该方法采用一个元代理,在开放环境中搜索以可执行代码表示的记忆设计方案,理论上允许发现任意类型的记忆结构及其检索和更新机制。在四个顺序决策领域的广泛实验表明,所学记忆设计在所有基准测试中均比最先进的手工设计记忆方案更有效、更高效地从经验中学习。当安全开发和部署时,ALMA代表了迈向自我改进AI系统的重要一步,这些系统能够学习成为适应性强的持续学习者。
AI 推荐理由
论文聚焦于记忆机制的设计与自动化学习,旨在提升Agent的持续学习能力,属于记忆机制的核心研究。
论文信息