HyFunc：通过混合模型级联和动态模板加速基于LLM的函数调用以实现智能体AI

摘要

尽管智能体AI系统依赖于大语言模型（LLM）将用户意图转化为结构化的函数调用，但这一过程存在大量计算冗余，导致推理延迟高，阻碍了实时应用。本文识别并解决了三个关键冗余问题：（1）每次请求都重复处理大量函数描述；（2）使用大型、缓慢模型生成整个通常可预测的token序列；（3）重复生成固定的、模板化的参数语法。本文提出了一种名为HyFunc的新框架，系统性地消除了这些低效问题。HyFunc采用混合模型级联方法，其中大型模型将用户意图提炼为一个“软token”，该token引导轻量级检索器选择相关函数，并指导经过前缀微调的小型模型生成最终调用，从而避免大型模型进行冗余上下文处理和完整序列生成。为了消除语法冗余，我们的“动态模板”技术在扩展的vLLM引擎中实时注入模板化参数语法。为了避免泛化能力的潜在限制，我们在未见过的基准数据集BFCL上评估了HyFunc。实验结果表明，HyFunc在效率和性能之间取得了良好的平衡，推理延迟仅为0.828秒，优于所有基线模型，性能达到80.1%，超越了所有参数规模相当的模型。这些结果表明，HyFunc为智能体AI提供了一种更高效的范式。

AI 推荐理由

论文聚焦于Agent中函数调用的效率优化，属于技能学习中的工具使用与调用机制。

论文信息

作者 Weibin Liao, Jian-guang Lou, Haoyi Xiong

发布日期 2026-02-14

arXiv ID 2602.13665