长上下文建模 记忆增强 滑动窗口注意力 测试时训练
摘要

大型语言模型(LLMs)在长序列任务中面临显著的性能瓶颈,这是由于自注意力机制固有的计算复杂性和内存开销所致。为了解决这些问题,我们引入了AllMem,这是一种新颖且高效的混合架构,结合了滑动窗口注意力(SWA)与非线性测试时训练(TTT)记忆网络。AllMem使模型能够有效扩展到超长上下文,同时减轻灾难性遗忘问题。该方法不仅克服了线性记忆模型的表示限制,还显著降低了长序列推理过程中的计算和内存消耗。此外,我们实现了一种记忆高效的微调策略,用记忆增强的滑动窗口层替换预训练模型中的标准注意力层。这一框架使得任何现成的预训练LLM都能高效地转换为基于AllMem的架构。实证评估表明,我们的4k窗口模型在37k LongBench上的表现几乎无损失,仅比全注意力模型下降0.83。此外,在128k上下文的InfiniteBench上,我们的8k窗口变体优于全注意力模型,验证了我们参数化记忆在降低噪声和保持稳健长距离建模方面的有效性,而无需全局注意力的高昂成本。

AI 推荐理由

论文核心围绕记忆机制展开,提出AllMem架构以解决长上下文建模中的记忆瓶颈问题。

论文信息
作者 Ziming Wang, Xiang Wang, Kailong Peng, Lang Qin, Juan Gabriel Kostelec et al.
发布日期 2026-02-14
arXiv ID 2602.13680
相关性评分 10/10 (高度相关)