Agent-Diff：通过代码执行与基于状态差异的评估，在企业API任务上对LLM代理进行基准测试

API调用代理评估代码执行基准测试技能学习

摘要

本文提出了一种名为Agent-Diff的新颖基准框架，用于评估代理式大语言模型（LLMs）在通过外部API执行现实任务中的表现。由于模型、外部工具访问、提示结构和代理框架的差异，代理式LLM的表现各不相同。基准测试必须在控制软件环境变化的沙箱方法与更生态有效的方法之间做出根本性权衡。Agent-Diff通过提供对真实API接口的访问并同时对调用、处理和评估环境进行沙箱化，结合了这两种方法的优点。该方法依赖于两个关键创新：一种新的状态差异合同，将过程与结果分离；以及一个标准化的脚本层，所有模型均可使用其对外部API执行代码。通过Agent-Diff框架，我们为九种LLM提供了224个任务的企业软件工作流程基准，并通过消融实验评估了API文档访问对基准性能的影响。

AI 推荐理由

论文聚焦于Agent通过API调用执行任务，涉及工具使用和技能评估，属于技能学习的核心研究。

论文信息

作者 Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson

发布日期 2026-02-11

arXiv ID 2602.11224