摘要
对话助手正越来越多地将长期记忆与大语言模型(LLM)结合,以提升个性化体验(如记住用户为素食者)。然而,这种记忆持久性也可能带来被忽视的安全风险。为此,本文提出PersistBench基准,用于评估两类长期记忆特有风险:跨域泄露(LLM不当注入长期记忆上下文)和记忆诱导的谄媚行为(存储的记忆隐秘强化用户偏见)。作者在18个前沿及开源LLM上进行评测,发现模型在跨域样本上的中位失败率达53%,在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。
AI 推荐理由
论文聚焦LLM长期记忆的安全风险,直接研究记忆机制的核心问题。
论文信息