摘要
工具调用对于大型语言模型(LLM)代理完成现实任务至关重要。尽管现有基准假设工具是简单且完美记录的,但现实中的工具(如通用“搜索”API)通常是不透明的,缺乏明确的最佳实践或失败模式。本文提出OpaqueToolsBench,一个包含三个任务导向环境的基准:通用函数调用、交互式棋盘游戏和长期轨迹代理搜索。每个环境中提供的工具描述不足,模型必须有效学习以完成任务。实验结果表明,现有自动记录工具的方法在面对不透明工具时成本高且不可靠。为此,我们提出ToolObserver框架,通过观察工具调用轨迹的执行反馈来迭代优化工具文档。该方法在多个数据集上优于现有方法,即使在较难设置中也表现优异,并且在测试时工具探索场景中效率更高,总消耗的token数量仅为最佳基线的3.5-7.5倍。
AI 推荐理由
论文聚焦于LLM代理在使用不透明工具时的技能学习与改进,核心研究内容为工具调用和文档优化。
论文信息