记忆智能体 强化学习
摘要

记忆智能体通过内生方式管理记忆的处理、存储与检索,展现出高度的自主性与适应性。然而,现有训练范式受限于稀疏且延迟的奖励信号,难以实现端到端的记忆管理策略优化。为此,本文提出Mem-T——一种可与轻量级分层记忆数据库交互的自主记忆智能体,支持对流式输入进行动态更新与多轮检索。为有效训练其长视野记忆管理能力,进一步提出MoT-GRPO框架,该树引导强化学习方法通过记忆操作树反向传播与事后信用分配,将稀疏终端反馈转化为稠密的逐步监督信号,联合优化记忆构建与检索。实验表明,Mem-T在性能上超越A-Mem和Mem0达14.92%,同时在准确率-效率帕累托前沿上表现优异,相较GAM减少约24.45%的推理token消耗而不损失性能。

AI 推荐理由

论文聚焦于自主记忆智能体的记忆管理机制与训练方法,核心研究Agent Memory。

论文信息
作者 Yanwei Yue, Guibin Zhang, Boci Peng, Xuanbo Fan, Jiaxin Guo et al.
发布日期 2026-01-30
arXiv ID 2601.23014
相关性评分 10/10 (高度相关)