摘要
尽管大型语言模型(LLMs)已展现出卓越的编程能力,但其从明确规范中自主构建生产级软件的能力仍是一个开放问题。本文介绍了SWE-AGI,一个用于评估端到端、规范驱动的MoonBit软件系统构建的开源基准。SWE-AGI任务要求基于LLM的代理严格依据权威标准和RFC,在固定API框架下实现解析器、解释器、二进制解码器和SAT求解器。每个任务需要实现1000至10000行核心逻辑,相当于经验丰富的开发人员数周或数月的工作量。通过利用新兴的MoonBit生态系统,SWE-AGI减少了数据泄露,迫使代理依赖长期架构推理而非代码检索。实验表明,gpt-5.3-codex在22项任务中完成19项(86.4%),优于claude-opus-4.6(68.2%)。随着任务难度增加,性能显著下降,尤其是在复杂规范密集型系统上。行为分析进一步揭示,随着代码库规模扩大,代码阅读而非编写成为AI辅助开发的主要瓶颈。总体而言,虽然规范驱动的自主软件工程日益可行,但在可靠支持生产级开发之前仍面临重大挑战。
AI 推荐理由
论文聚焦于基于规范的软件构建,涉及任务规划、多步逻辑实现与架构推理,属于规划能力的核心研究。
论文信息