软件工程代理 测试生成 LLM评估 任务规划
摘要

随着大型语言模型(LLM)代码代理在解决仓库级问题中的应用日益广泛,这些代理通常通过迭代编辑代码、调用工具和验证候选补丁来完成任务。许多高排名代理在SWE-bench排行榜上采用了一种即时编写测试的范式。然而,我们发现GPT-5.2几乎不生成新测试,却仍能实现与顶级代理相当的性能。这引发了一个关键问题:这些测试是否真正提升了问题解决能力,还是仅仅模仿了人类测试实践并消耗了大量交互预算。为揭示代理生成测试的影响,我们对六种最先进的LLM在SWE-bench Verified上的轨迹进行了实证研究。结果显示,尽管测试编写是常见做法,但同一模型中已解决和未解决的任务在测试编写频率上并无显著差异。此外,这些测试通常作为观察性反馈通道,代理更倾向于使用揭示值的打印语句,而非正式的断言检查。基于这些发现,我们通过修改四个代理的提示来增加或减少测试编写,并进行受控实验。结果表明,代理生成测试的数量变化并未显著影响最终结果。综上所述,我们的研究表明,当前的测试编写实践在自主软件工程任务中可能仅提供有限的效用。

AI 推荐理由

论文探讨了Agent在软件工程任务中生成测试的技能及其实际效用,涉及工具使用和任务执行策略。

论文信息
作者 Zhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu et al.
发布日期 2026-02-08
arXiv ID 2602.07900
相关性评分 7/10 (相关)