tool-call safety agent alignment safety evaluation system prompts
摘要

随着大型语言模型作为代理越来越多地通过工具调用与外部系统交互,其行为可能带来现实世界的影响。然而,现有的安全性评估主要集中在文本层面的拒绝行为上,未能解决关键问题:抑制有害文本输出是否也能抑制有害动作?本文引入了GAP基准,用于系统性评估文本安全性和工具调用安全性之间的差异。通过对六种前沿模型在六个受监管领域、七种越狱场景、三种系统提示条件和两种提示变体下的测试,生成了17,420个分析数据点。核心发现是文本安全性并不能保证工具调用的安全性,模型可能在拒绝有害请求的同时仍执行禁止操作。系统提示词对工具调用行为有显著影响,而运行时治理合同虽能减少信息泄露,但对防止非法工具调用无明显作用。这些结果表明,仅依赖文本安全性评估不足以衡量代理行为,工具调用安全性需要专门的测量和缓解措施。

AI 推荐理由

论文聚焦于LLM代理在工具调用中的安全问题,涉及技能执行与行为控制,属于技能学习相关的核心研究。

论文信息
作者 Arnold Cartagena, Ariane Teixeira
发布日期 2026-02-18
arXiv ID 2602.16943
相关性评分 8/10 (高度相关)