摘要
随着LLM代理被部署到长期、复杂的环境中以解决具有挑战性的问题,它们也面临着利用多轮用户-代理-环境交互实现单轮设置中不可行目标的长期攻击。为衡量代理对这些风险的脆弱性,本文提出了AgentLAB,这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准测试。目前,AgentLAB支持五种新型攻击类型,包括意图劫持、工具链、任务注入、目标漂移和记忆中毒,并覆盖28个现实的代理环境以及644个安全测试用例。通过AgentLAB,我们评估了代表性LLM代理,发现它们对长期攻击仍高度易感;此外,针对单轮交互设计的防御措施无法有效缓解长期威胁。我们预期AgentLAB将成为跟踪实际场景中LLM代理安全进展的重要基准。
AI 推荐理由
论文聚焦于LLM agents在长期复杂环境中的规划能力及安全性,涉及任务分解与目标导向行为。
论文信息