无状态却不忘却：LLM中的隐式记忆作为隐藏通道

隐式记忆 LLM 后门攻击信息持久化安全风险

摘要

大型语言模型（LLMs）通常被视为无状态的：一旦交互结束，除非显式存储并重新提供信息，否则不会假设任何信息持续存在。本文挑战这一假设，引入隐式记忆——模型通过在其输出中编码信息，并在后续交互中重新引入这些输出以恢复信息的能力。该机制无需显式记忆模块，却能在推理请求之间创建持久的信息通道。作为具体案例，我们提出了一种新的时间炸弹类时序后门，其仅在满足通过隐式记忆积累的隐藏条件的交互序列后激活。我们展示了此类行为可通过简单的提示或微调实现。此外，我们分析了隐式记忆更广泛的含义，包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后，我们讨论了检测挑战，并概述了压力测试与评估的方向，旨在预测和控制未来的发展。为促进未来研究，我们发布了代码和数据。

AI 推荐理由

论文核心研究LLM的隐式记忆机制，探讨其在无显式存储模块下的信息持久化能力。

论文信息

作者 Ahmed Salem, Andrew Paverd, Sahar Abdelnabi

发布日期 2026-02-09

arXiv ID 2602.08563