摘要
基于LLM的代理在能力上日益增强,但其安全性却相对滞后,这导致了代理能做与应做的事情之间的差距。随着代理参与多轮交互并使用多样化的工具,新的风险被现有基准所忽视。为系统地将安全性测试扩展到多轮、工具现实的场景中,本文提出了一种原理性的分类法,将单轮有害任务转化为多轮攻击序列,并构建了MT-AgentRisk(多轮代理风险基准),这是首个用于评估多轮工具使用代理安全性的基准。实验表明,在多轮设置下,攻击成功率(ASR)平均增加了16%。为弥补这一差距,本文提出了ToolShield,一种无需训练、与工具无关、自我探索的防御方法:当遇到新工具时,代理自主生成测试用例,执行以观察下游影响,并提炼安全性经验用于部署。实验表明,ToolShield在多轮交互中平均可将ASR降低30%。
AI 推荐理由
论文聚焦于工具使用代理的安全性,涉及工具调用、攻击序列构建及防御机制,直接关联技能学习与工具使用。
论文信息