摘要
技能已成为编码代理中的核心抽象,用于封装长格式指令和辅助脚本以扩展工具增强行为。然而,这种抽象引入了一个未被充分评估的攻击面:基于技能的提示注入攻击,其中被污染的技能可以引导代理偏离用户意图和安全策略。在实践中,简单的注入通常会失败,因为恶意意图过于明显或偏离原始技能,导致代理忽略或拒绝它们;现有的攻击方法也大多是手工设计的。本文提出了一种针对代理技能的首个自动化隐蔽提示注入框架。该框架形成一个闭环,包含三个代理:攻击代理在显式隐蔽约束下合成注入技能,代码代理在真实工具环境中使用注入技能执行任务,评估代理记录操作轨迹(如工具调用和文件操作)并验证是否发生了目标恶意行为。我们还提出了一种恶意负载隐藏策略,将对抗性操作隐藏在辅助脚本中,同时注入优化的诱导提示以触发工具执行。在多种编码代理设置和现实世界软件工程任务中的广泛实验表明,我们的方法在实际场景下始终能实现较高的攻击成功率。
AI 推荐理由
论文聚焦于Agent技能注入攻击,直接涉及技能学习与工具调用机制,是技能相关研究的核心内容。
论文信息