FeatureBench: 复杂功能开发中代理编码的基准测试

摘要

由大语言模型驱动的代理在软件行业中被越来越多地采用，作为协作者甚至自主开发者编写代码。随着其应用范围的扩大，评估其当前编码能力的边界变得尤为重要。现有的代理编码基准测试通常涵盖有限的任务范围，例如单个提交请求（PR）内的错误修复，并且往往依赖非可执行的评估或缺乏自动更新评估覆盖范围的方法。为了解决这些问题，我们提出了FeatureBench，一个用于端到端、以功能为导向的软件开发中评估代理编码性能的基准测试。FeatureBench结合了基于执行的评估协议和一种可扩展的测试驱动方法，能够从代码仓库中自动推导任务，所需的人工干预极少。通过追踪单元测试并沿着依赖图进行分析，我们的方法可以识别跨越多个提交和PR的功能级编码任务，并确保分离后其他功能的正常运行。使用这一框架，我们在第一版基准测试中整理了200个具有挑战性的评估任务和3825个可执行环境，来自24个开源仓库。实证评估表明，最先进的代理模型（如Claude 4.5 Opus），在SWE-bench上达到74.4%的解决率，在FeatureBench上仅能成功完成11.0%的任务，这为推进代理编码提供了新的机会。此外，得益于我们的自动化任务收集工具包，FeatureBench可以轻松扩展和更新，以减少数据泄露问题。构建环境的内在可验证性也使该方法在代理训练中具有潜在价值。

AI 推荐理由

论文聚焦于评估Agent在复杂功能开发中的规划与执行能力，涉及任务分解和多步骤开发流程。

论文信息

作者 Qixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang et al.

发布日期 2026-02-11

arXiv ID 2602.10975