Agent Memory Embodied AI
摘要

本文提出MineNPC-Task,一个由用户构建的基准与评估框架,用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏,经规范化为带显式前提条件与依赖结构的参数化模板,并配以机器可验证的校验器,遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件(包括计划预览、定向澄清、记忆读写、前提检查与修复尝试),并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o,在8名资深玩家参与下评估了216个子任务,揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式,以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价,同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架,以支持未来具身记忆智能体的透明、可复现评估。

AI 推荐理由

论文聚焦于评估具有记忆能力的LLM智能体,明确设计记忆读写、持久性等机制。

论文信息
作者 Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel
发布日期 2026-01-08
arXiv ID 2601.05215
相关性评分 9/10 (高度相关)