摘要
尽管编码智能体取得了快速进展,但其多模态能力的发展相对滞后。一个关键挑战是缺乏结合软件开发复杂性与深度多模态理解的评估平台。游戏开发提供了这样的测试环境,因为智能体需要处理大型、密集的代码库,并操作内在多模态资源(如着色器、精灵和动画)以构建视觉游戏场景。本文提出了GameDevBench,这是首个用于评估智能体在游戏开发任务中表现的基准测试。该基准包含132个任务,来源于网络和视频教程,任务要求显著的多模态理解和复杂的操作——平均解决方案所需的代码行数和文件修改量是之前软件开发基准的三倍以上。目前智能体仍难以应对游戏开发任务,最佳智能体仅能解决54.5%的任务。研究发现任务难度与多模态复杂性之间存在强相关性,成功率从面向游戏玩法的任务46.9%下降到2D图形任务的31.6%。为提升多模态能力,作者引入了两种基于图像和视频的反馈机制。尽管方法简单,但这些方法显著提升了性能,其中Claude Sonnet 4.5的表现从33.3%提高到了47.7%。作者公开发布GameDevBench以支持进一步的研究。
AI 推荐理由
论文聚焦于评估Agent在游戏开发任务中的能力,涉及复杂任务规划与多步骤操作。
论文信息