PersistBench：大语言模型应在何时遗忘长期记忆？

摘要

对话助手正越来越多地将长期记忆与大语言模型（LLM）结合，以提升个性化体验（如记住用户为素食者）。然而，这种记忆持久性也可能带来被忽视的安全风险。为此，本文提出PersistBench基准，用于评估两类长期记忆特有风险：跨域泄露（LLM不当注入长期记忆上下文）和记忆诱导的谄媚行为（存储的记忆隐秘强化用户偏见）。作者在18个前沿及开源LLM上进行评测，发现模型在跨域样本上的中位失败率达53%，在谄媚样本上高达97%。该基准旨在推动更鲁棒、更安全的长期记忆机制在对话系统中的发展。

AI 推荐理由

论文聚焦LLM长期记忆的安全风险，直接研究记忆机制的核心问题。

论文信息

作者 Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.

发布日期 2026-02-01

arXiv ID 2602.01146