网络安全 提示注入攻击 代理系统 自适应攻击 技能学习
摘要

基于大语言模型(LLM)的网络代理正被越来越多地部署以通过直接与网站交互并代表用户执行操作来自动化复杂的在线任务。尽管这些代理具有强大的功能,但其设计使其容易受到嵌入在不可信网页内容中的间接提示注入攻击,从而使攻击者劫持代理行为并违反用户意图。尽管对这一威胁的认识正在增加,但现有的评估方法依赖于固定的攻击模板、手动选择的注入点或范围狭窄的场景,限制了其捕捉实际中真实且自适应攻击的能力。我们提出了MUZZLE,一个用于评估网络代理在面对间接提示注入攻击时安全性的自动化代理框架。MUZZLE利用代理的轨迹自动识别高显著性注入点,并生成上下文感知的恶意指令,以针对机密性、完整性和可用性的违规行为。与以往的方法不同,MUZZLE根据观察到的代理执行轨迹自适应调整攻击策略,并通过失败执行的反馈迭代优化攻击。我们在多样化的网络应用、用户任务和代理配置上评估了MUZZLE,证明其能够在最小人工干预的情况下自动且自适应地评估网络代理的安全性。我们的结果显示,MUZZLE有效地发现了4个网络应用上的37种新攻击,涉及10个违反机密性、可用性或隐私属性的对抗目标。MUZZLE还识别出新的攻击策略,包括2种跨应用的提示注入攻击和一种针对代理定制的钓鱼场景。

AI 推荐理由

论文涉及Agent在面对间接提示注入攻击时的适应性对抗技能,属于技能学习与工具使用相关。

论文信息
作者 Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson et al.
发布日期 2026-02-09
arXiv ID 2602.09222
相关性评分 7/10 (相关)