隐式记忆 LLM 后门攻击 信息持久化 安全风险
摘要

大型语言模型(LLMs)通常被视为无状态的:一旦交互结束,除非显式存储并重新提供信息,否则不会假设任何信息持续存在。本文挑战这一假设,引入隐式记忆——模型通过在其输出中编码信息,并在后续交互中重新引入这些输出以恢复信息的能力。该机制无需显式记忆模块,却能在推理请求之间创建持久的信息通道。作为具体案例,我们提出了一种新的时间炸弹类时序后门,其仅在满足通过隐式记忆积累的隐藏条件的交互序列后激活。我们展示了此类行为可通过简单的提示或微调实现。此外,我们分析了隐式记忆更广泛的含义,包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后,我们讨论了检测挑战,并概述了压力测试与评估的方向,旨在预测和控制未来的发展。为促进未来研究,我们发布了代码和数据。

AI 推荐理由

论文核心研究LLM的隐式记忆机制,探讨其在无显式存储模块下的信息持久化能力。

论文信息
作者 Ahmed Salem, Andrew Paverd, Sahar Abdelnabi
发布日期 2026-02-09
arXiv ID 2602.08563
相关性评分 9/10 (高度相关)