摘要
人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力,却难以实现此类自进化:微调计算成本高且易灾难性遗忘,现有基于记忆的方法依赖被动语义匹配,常检索到噪声信息。为此,本文提出MemRL框架,使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块,并采用两阶段检索机制:先按语义相关性筛选候选记忆,再基于学习到的Q值(效用)进行选择。这些效用值通过环境反馈以试错方式持续优化,使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明,MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境,实现无需权重更新的持续运行时改进。
AI 推荐理由
论文核心提出基于情景记忆的强化学习框架MemRL,直接聚焦Agent Memory机制。
论文信息