摘要
基于LLM的工具正在迅速自动化更多的软件开发任务,但目前尚无严谨的方法来评估不同架构选择(如提示、技能、工具和多代理设置)如何实质性地影响能力和成本。本文介绍了Scylla,一个通过结构化消融研究来评估代理编码工具的框架,该框架使用七个测试层级(T0-T6)逐步增加复杂性以隔离直接影响结果的因素。关键指标是“通过成本”(CoP),即获得一个正确解决方案的预期美元成本,直接量化了复杂性与效率之间的权衡。该框架模型无关,适用于任何CLI工具;本文使用Claude Sonnet 4.5进行演示,并利用同一供应商的多个LLM评估者(Opus 4.5、Sonnet 4.5、Haiku 4.5)达成评估共识,评估者通过直接测试、人工设计的LLM评估标准和定性评估对结果进行评分。最终得出一个可复现的框架,量化了代理复杂性与实际结果之间的权衡,表明架构复杂性并不总是能提高质量。
AI 推荐理由
论文主要评估不同架构选择对代理工具能力与成本的影响,涉及技能(如工具使用)的效率分析。
论文信息