摘要
代码进化是一类依赖大语言模型通过演化或变异现有代码来搜索可能的计算机程序的技术。许多提出的代码进化流程表现出令人印象深刻的效果,但通常未与更简单的基线进行比较。本文测试了两种简单基线在三个领域中的表现:寻找更好的数学边界、设计代理框架以及机器学习竞赛。结果发现,在所有三个领域中,这些简单基线的表现均能匹配甚至超越更复杂的算法。通过分析结果,我们发现了代码进化在开发和使用中的多种不足之处。对于数学边界问题,搜索空间和提示中的领域知识是决定搜索性能上限和效率的主要因素,而代码进化流程则处于次要地位。因此,改进边界的首要挑战在于设计良好的搜索空间,这由领域专家完成,而非搜索本身。在设计代理框架时,我们发现高方差的框架结合小数据集会导致次优框架被选中,从而手动设计的多数投票框架表现最佳。我们提出了减少评估随机性同时保持代码进化经济可行性的更好评估方法。最后,我们讨论了未来工作中实现更严格代码进化的途径和最佳实践。
AI 推荐理由
论文核心研究代码进化方法,并分析其性能与改进方向,直接涉及自我进化主题。
论文信息