attention mechanism continual learning memory capacity Bayesian metaplasticity forgetting mechanism
摘要

在Transformer中,上下文学习(ICL)作为一种在线联想记忆机制,支撑其在复杂序列处理任务中的高性能表现。然而,在门控线性注意力模型中,这种记忆具有固定容量且易受干扰,尤其在处理长序列时表现不佳。本文提出Palimpsa,一种将ICL视为持续学习问题的自注意力模型,需解决稳定性-可塑性困境。Palimpsa采用贝叶斯元可塑性机制,每个注意力状态的可塑性与其重要性状态相关,该重要性状态由先验分布确定,以捕捉累积知识。实验表明,多种门控线性注意力模型可视为特定架构选择和后验近似,Mamba2是Palimpsa的一个特例,其中遗忘占主导地位。这一理论联系使得任何非元可塑模型都能转化为元可塑模型,显著扩展其记忆容量。实验结果显示,Palimpsa在MQAR基准测试和常识推理任务中均优于基线模型。

AI 推荐理由

论文聚焦于注意力模型中的记忆机制,提出解决稳定性-可塑性困境的Palimpsa模型,直接关联记忆容量与遗忘机制。

论文信息
作者 Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci
发布日期 2026-02-09
arXiv ID 2602.09075
相关性评分 9/10 (高度相关)