agentic coding benchmarking software development task planning
摘要

由大语言模型驱动的代理在软件行业中被越来越多地采用,作为协作者甚至自主开发者编写代码。随着其应用范围的扩大,评估其当前编码能力的边界变得尤为重要。现有的代理编码基准测试通常涵盖有限的任务范围,例如单个提交请求(PR)内的错误修复,并且往往依赖非可执行的评估或缺乏自动更新评估覆盖范围的方法。为了解决这些问题,我们提出了FeatureBench,一个用于端到端、以功能为导向的软件开发中评估代理编码性能的基准测试。FeatureBench结合了基于执行的评估协议和一种可扩展的测试驱动方法,能够从代码仓库中自动推导任务,所需的人工干预极少。通过追踪单元测试并沿着依赖图进行分析,我们的方法可以识别跨越多个提交和PR的功能级编码任务,并确保分离后其他功能的正常运行。使用这一框架,我们在第一版基准测试中整理了200个具有挑战性的评估任务和3825个可执行环境,来自24个开源仓库。实证评估表明,最先进的代理模型(如Claude 4.5 Opus),在SWE-bench上达到74.4%的解决率,在FeatureBench上仅能成功完成11.0%的任务,这为推进代理编码提供了新的机会。此外,得益于我们的自动化任务收集工具包,FeatureBench可以轻松扩展和更新,以减少数据泄露问题。构建环境的内在可验证性也使该方法在代理训练中具有潜在价值。

AI 推荐理由

论文聚焦于评估Agent在复杂功能开发中的规划与执行能力,涉及任务分解和多步骤开发流程。

论文信息
作者 Qixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang et al.
发布日期 2026-02-11
arXiv ID 2602.10975
相关性评分 9/10 (高度相关)