长期记忆 安全风险
摘要

对话助手正越来越多地将长期记忆与大语言模型(LLM)结合,以提升个性化体验(如记住用户为素食者)。然而,这种记忆持久性也可能带来被忽视的安全风险。为此,本文提出PersistBench基准,用于评估两类长期记忆特有风险:跨域泄露(LLM不当注入长期记忆上下文)和记忆诱导的谄媚行为(存储的记忆隐秘强化用户偏见)。作者在18个前沿及开源LLM上进行评测,发现模型在跨域样本上的中位失败率达53%,在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。

AI 推荐理由

论文聚焦LLM长期记忆的安全风险,直接研究记忆机制的核心问题。

论文信息
作者 Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.
发布日期 2026-02-01
arXiv ID 2602.01146
相关性评分 10/10 (高度相关)