agent skills benchmarking procedural knowledge tool use skill evaluation
摘要

Agent技能是用于增强LLM代理推理能力的结构化过程知识包。尽管其应用迅速增长,但目前尚无标准方法衡量其实际效果。本文提出SkillsBench基准测试,包含86个跨11个领域的任务,并配以精选技能和确定性验证器。每个任务在三种条件下进行评估:无技能、精选技能和自动生成技能。通过7种代理模型配置对7,308条轨迹进行测试。结果表明,精选技能使平均通过率提高了16.2个百分点,但不同领域效果差异显著(从软件工程的+4.5pp到医疗健康的+51.9pp),其中16项任务显示负面效果。自动生成技能整体无明显优势,表明模型无法可靠地生成自身所需的程序性知识。模块数为2-3的聚焦技能优于全面文档,且配备技能的小模型可与未配备技能的大模型相媲美。

AI 推荐理由

论文核心围绕Agent技能的评估,包括预定义技能和自动生成技能的效果对比。

论文信息
作者 Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen et al.
发布日期 2026-02-13
arXiv ID 2602.12670
相关性评分 10/10 (高度相关)