摘要
现有的智能体记忆评估通常单独测试记忆和行动能力。一类基准通过测试对过去对话或文本的回忆来评估记忆,但未能体现记忆如何引导未来决策;另一类则关注单次会话任务,无需长期记忆。然而,在现实场景中,记忆与行动紧密耦合:智能体在与环境交互时获取记忆,并依赖该记忆解决后续任务。为此,本文提出MemoryArena,一个统一的评估框架,用于在多会话智能体-环境循环中基准测试智能体记忆。该基准包含由人工设计的具有显式相互依赖子任务的智能体任务,要求智能体从早期行动和反馈中提炼经验并存储到记忆中,随后利用这些记忆指导后续行动以完成整体任务。MemoryArena支持跨网页导航、偏好约束规划、渐进信息搜索和顺序形式推理的评估,并揭示了当前长上下文记忆基准(如LoCoMo)表现接近饱和的智能体在本基准中表现不佳,暴露出当前对记忆型智能体评估的不足。
AI 推荐理由
论文聚焦于Agent的记忆机制,设计了专门的基准测试以评估多会话任务中的记忆使用。
论文信息