长期规划 交互经济 LLM评估 任务执行 基准测试
摘要

长期规划被认为是基于LLM的自主代理的核心能力之一;然而,当前的评估框架大多具有片段化、领域特定或未能充分嵌入持续经济动态的特点。本文引入了EcoGym,这是一个用于交互经济中连续计划与执行决策的通用基准测试平台。EcoGym包含三个多样化的环境:自动售货、自由职业和运营,并通过统一的决策过程和标准化接口实现,支持在有效无界的时间范围内(如365天循环评估时超过1000步)进行预算化动作。EcoGym的评估基于商业相关结果(如净资产、收入和日活跃用户),旨在考察长期战略一致性及在部分可观测性和随机性条件下的鲁棒性。实验表明,目前没有单一模型能在所有三种场景中占据优势,且模型在高层策略或高效执行方面存在显著不足。EcoGym作为开源、可扩展的测试平台,可用于透明的长期代理评估,并研究现实经济环境中可控性与效用之间的权衡。

AI 推荐理由

论文聚焦于长期规划能力的评估,提出EcoGym基准测试环境,直接关联到Agent的规划与执行能力。

论文信息
作者 Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan et al.
发布日期 2026-02-10
arXiv ID 2602.09514
相关性评分 9/10 (高度相关)