动态环境 异步交互 任务规划 多代理协作 强化学习
摘要

本文介绍了Gaia2,一个用于评估大型语言模型代理在真实、异步环境中表现的基准。与以往静态或同步评估不同,Gaia2引入了环境独立于代理动作而演变的场景,要求代理在时间约束下运行、适应噪声和动态事件、解决歧义并与其他代理协作。每个场景均配有写操作验证器,支持细粒度的动作级评估,并使Gaia2可以直接用于基于可验证奖励的强化学习。对当前最先进的专有和开源模型的评估表明,没有一种模型在所有能力上都占优:GPT-5(高)以42%的pass@1得分达到最强整体表现,但在时间敏感任务中失败;Claude-4 Sonnet以准确性和速度换取成本;Kimi-K2在开源模型中领先,得分为21% pass@1。这些结果突显了推理、效率和鲁棒性之间的根本权衡,并揭示了缩小“sim2real”差距的挑战。Gaia2基于消费者环境构建,并使用开源的Agents Research Environments平台,设计易于扩展。通过与基础ARE框架一同发布Gaia2,我们旨在为社区提供一个灵活的基础设施,用于开发、基准测试和训练下一代实用代理系统。

AI 推荐理由

论文聚焦于Agent在动态异步环境中的任务规划与适应能力,是规划能力研究的核心内容。

论文信息
作者 Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral et al.
发布日期 2026-02-12
arXiv ID 2602.11964
相关性评分 9/10 (高度相关)