SkillJect：通过追踪驱动的闭环优化实现编码代理的隐蔽技能型提示注入自动化

prompt injection agent security skill-based attack tool execution adversarial learning

摘要

技能已成为编码代理中的核心抽象，用于封装长格式指令和辅助脚本以扩展工具增强行为。然而，这种抽象引入了一个未被充分评估的攻击面：基于技能的提示注入攻击，其中被污染的技能可以引导代理偏离用户意图和安全策略。在实践中，简单的注入通常会失败，因为恶意意图过于明显或偏离原始技能，导致代理忽略或拒绝它们；现有的攻击方法也大多是手工设计的。本文提出了一种针对代理技能的首个自动化隐蔽提示注入框架。该框架形成一个闭环，包含三个代理：攻击代理在显式隐蔽约束下合成注入技能，代码代理在真实工具环境中使用注入技能执行任务，评估代理记录操作轨迹（如工具调用和文件操作）并验证是否发生了目标恶意行为。我们还提出了一种恶意负载隐藏策略，将对抗性操作隐藏在辅助脚本中，同时注入优化的诱导提示以触发工具执行。在多种编码代理设置和现实世界软件工程任务中的广泛实验表明，我们的方法在实际场景下始终能实现较高的攻击成功率。

AI 推荐理由

论文聚焦于Agent技能注入攻击，直接涉及技能学习与工具调用机制，是技能相关研究的核心内容。

论文信息

作者 Xiaojun Jia, Jie Liao, Simeng Qin, Jindong Gu, Wenqi Ren et al.

发布日期 2026-02-15

arXiv ID 2602.14211