驯服斯库拉：理解编码海洋中的多头代理守护进程

agent tool evaluation cost analysis ablation study LLM benchmarking

摘要

基于LLM的工具正在迅速自动化更多的软件开发任务，但目前尚无严谨的方法来评估不同架构选择（如提示、技能、工具和多代理设置）如何实质性地影响能力和成本。本文介绍了Scylla，一个通过结构化消融研究来评估代理编码工具的框架，该框架使用七个测试层级（T0-T6）逐步增加复杂性以隔离直接影响结果的因素。关键指标是“通过成本”（CoP），即获得一个正确解决方案的预期美元成本，直接量化了复杂性与效率之间的权衡。该框架模型无关，适用于任何CLI工具；本文使用Claude Sonnet 4.5进行演示，并利用同一供应商的多个LLM评估者（Opus 4.5、Sonnet 4.5、Haiku 4.5）达成评估共识，评估者通过直接测试、人工设计的LLM评估标准和定性评估对结果进行评分。最终得出一个可复现的框架，量化了代理复杂性与实际结果之间的权衡，表明架构复杂性并不总是能提高质量。

AI 推荐理由

论文主要评估不同架构选择对代理工具能力与成本的影响，涉及技能（如工具使用）的效率分析。

论文信息

作者 Micah Villmow

发布日期 2026-02-09

arXiv ID 2602.08765