工具感知规划 LLM评估 查询分解 计划生成 接触中心AI
摘要

本文提出了一种面向接触中心AI的领域驱动框架和基准,用于工具感知的计划生成。回答业务洞察查询需要将其分解为结构化工具(如Text2SQL/Snowflake)和非结构化工具(如RAG/转录文本)上的可执行步骤,并明确依赖关系以实现并行处理。本文贡献包括:(i) 基于参考的计划评估框架,包含多维指标评估器和单次评估器;(ii) 一种数据整理方法,通过评估器-优化器循环迭代优化计划,减少人工干预;(iii) 对14种不同规模和家族的LLM进行大规模实验,评估其在有无谱系提示下分解查询为分步、可执行、分配工具计划的能力。实验证明,LLM在复杂查询和超过4步的计划上表现不佳,最佳总评分达到84.8%(Claude-3-7-Sonnet),而最高单次匹配率仅为49.75%(o3-mini)。计划谱系整体效果不一,但对部分顶级模型有益,并提升了多个模型的步骤可执行性。结果突显了工具理解方面的持续差距,特别是工具提示对齐和工具使用完整性方面,表明较短、简单的计划更容易完成。该框架和发现为接触中心环境中通过工具回答数据分析查询的智能体规划评估与改进提供了可复现的路径。

AI 推荐理由

论文聚焦于基于工具的规划生成,评估LLM在分解查询为可执行步骤中的能力,属于规划能力的核心研究。

论文信息
作者 Varun Nathan, Shreyas Guha, Ayush Kumar
发布日期 2026-02-16
arXiv ID 2602.14955
相关性评分 9/10 (高度相关)