LLM Agent Memory Attack
摘要

大语言模型(LLM)智能体通过结合规划、记忆和工具使用的多步工作流执行任务,这种设计虽提升了自主性,却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题,本文提出BackdoorAgent——一个模块化、阶段感知的统一框架,从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究,并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明,单阶段植入的触发器可在多步中持续存在并传播,其中记忆攻击在GPT基座模型上触发持久率达77.97%,凸显智能体工作流对后门威胁的脆弱性。

AI 推荐理由

论文将记忆攻击作为三大核心攻击阶段之一,系统分析其在Agent工作流中的触发与传播机制。

论文信息
作者 Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.
发布日期 2026-01-08
arXiv ID 2601.04566
相关性评分 8/10 (高度相关)