摘要
交互式大型语言模型(LLM)代理通过多轮对话和多步骤工具调用在生产环境中日益普及。这些代理的基准测试必须能够可靠地比较模型并生成策略内训练数据。现有的代理基准测试(如tau-bench、AppWorld等)依赖于完全确定性的后端系统,但构建和迭代成本较高。本文提出了一种基于代理状态的评估框架,该框架由LLM驱动,能够在不依赖确定性数据库的情况下保持最终状态评估。具体而言,一个场景定义了用户目标、用户/系统事实、预期最终状态及预期代理行为,LLM状态跟踪器从完整交互轨迹中推断出结构化代理状态。LLM评估者随后根据场景约束验证目标完成情况并检测工具或用户幻觉。实证研究表明,该基准测试能稳定区分不同模型家族及推理努力程度,并且其策略内外的模拟提供了对未见场景的监督。通过仔细设计场景,可以实现接近零的模拟器幻觉率,如消融研究所示。该框架还支持针对用户人设的敏感性分析。人类与LLM评估者的一致性超过90%,表明自动化评估具有可靠性。总体而言,基于代理状态的评估为工业级LLM代理提供了一种实用且可扩展的替代方案。
AI 推荐理由
论文聚焦于多步骤工具调用的LLM代理评估,直接涉及技能学习与工具使用的核心机制。
论文信息