摘要
随着大语言模型(LLMs)在编程任务中的不断进步,LLM驱动的编程系统已从一次性代码生成发展为能够在推理过程中进行迭代改进的复杂系统。然而,现有的代码基准主要强调静态正确性,并隐含假设推理过程中模型能力固定。因此,它们无法捕捉推理时的自我进化,如准确性与效率是否随代理逐步优化解决方案而提升。此外,这些基准对资源成本的考量有限,且很少将模型性能与人类程序员进行校准。许多基准还以高资源语言为主,导致跨语言鲁棒性和长尾语言稳定性研究不足。为此,我们提出了EvoCodeBench,一个用于评估跨编程语言的自进化LLM驱动编程系统的基准,可直接与人类表现进行比较。EvoCodeBench追踪性能动态变化,测量解题正确性及效率指标,如解决时间、内存消耗和改进算法设计。通过将模型性能与人类程序员在相同任务上的表现直接对比,使评估基于以人为中心的参考框架。此外,EvoCodeBench支持多种编程语言,可在统一协议下进行系统化的跨语言和长尾语言稳定性分析。我们的结果表明,自进化系统在效率方面具有可衡量的提升,而相对人类表现和多语言分析提供了仅凭准确率无法获得的见解。EvoCodeBench为评估演进中的LLM驱动系统的编码智能奠定了基础。
AI 推荐理由
论文聚焦于LLM驱动的编码系统的自我进化能力,评估其在推理过程中的迭代改进。
论文信息