摘要
本文介绍了ResearchGym,一个用于评估AI代理在端到端研究任务中的基准和执行环境。通过复用ICML、ICLR和ACL会议的五篇论文,构建了包含39个子任务的五个容器化任务环境。代理需提出新假设、运行实验并超越人类基线。实验显示,基于GPT-5的代理仅在15次评估中有6.7%的提升,并完成26.5%的子任务,暴露了长期规划和资源管理等缺陷。尽管如此,代理偶尔能达到前沿性能。研究还评估了Claude Code和Codex等专有代理框架,发现类似差距。ResearchGym为自主代理在闭环研究中的系统评估提供了基础设施。
AI 推荐理由
论文重点评估Agent在端到端研究任务中的规划与执行能力,涉及任务分解、实验设计与目标导向行为。
论文信息