函数调用 混合模型 动态模板 智能体AI 推理效率
摘要

尽管智能体AI系统依赖于大语言模型(LLM)将用户意图转化为结构化的函数调用,但这一过程存在大量计算冗余,导致推理延迟高,阻碍了实时应用。本文识别并解决了三个关键冗余问题:(1)每次请求都重复处理大量函数描述;(2)使用大型、缓慢模型生成整个通常可预测的token序列;(3)重复生成固定的、模板化的参数语法。本文提出了一种名为HyFunc的新框架,系统性地消除了这些低效问题。HyFunc采用混合模型级联方法,其中大型模型将用户意图提炼为一个“软token”,该token引导轻量级检索器选择相关函数,并指导经过前缀微调的小型模型生成最终调用,从而避免大型模型进行冗余上下文处理和完整序列生成。为了消除语法冗余,我们的“动态模板”技术在扩展的vLLM引擎中实时注入模板化参数语法。为了避免泛化能力的潜在限制,我们在未见过的基准数据集BFCL上评估了HyFunc。实验结果表明,HyFunc在效率和性能之间取得了良好的平衡,推理延迟仅为0.828秒,优于所有基线模型,性能达到80.1%,超越了所有参数规模相当的模型。这些结果表明,HyFunc为智能体AI提供了一种更高效的范式。

AI 推荐理由

论文聚焦于Agent中函数调用的效率优化,属于技能学习中的工具使用与调用机制。

论文信息
作者 Weibin Liao, Jian-guang Lou, Haoyi Xiong
发布日期 2026-02-14
arXiv ID 2602.13665
相关性评分 9/10 (高度相关)