Agent Memory Environment Understanding
摘要

大型语言模型(LLM)智能体在复杂决策与工具使用任务中展现出卓越能力,但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标,却忽视了智能体是否具备可迁移、具身化的环境模型。为此,本文提出Task-to-Quiz(T2Q)范式,通过确定性、自动化的问答机制将任务执行与环境状态理解解耦,并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明,任务成功常不能反映真实环境理解水平,且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈,为开发更具泛化能力的自主智能体奠定基础。

AI 推荐理由

论文指出当前记忆机制无法有效支持环境建模,Memory是关键但非核心主题。

论文信息
作者 Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.
发布日期 2026-01-14
arXiv ID 2601.09503
相关性评分 6/10 (相关)