快速权重 长上下文建模 强化学习 序列预测 记忆机制
摘要

快速权重架构为长上下文建模提供了一种有前景的替代方案,其内存开销与上下文长度无关。然而,其潜力受到下一个标记预测(NTP)训练范式的限制。NTP优化单个标记预测,忽略了前缀后多个标记之间的语义一致性。因此,快速权重模型动态更新参数以存储上下文信息,但学习到的表示无法有效捕捉长距离依赖关系。本文引入REFINE(基于下一段预测的强化快速权重),一种基于下一段预测(NSP)目标的强化学习框架。REFINE根据预测熵选择信息量大的标记位置,生成多标记展开,分配自监督序列级奖励,并通过组相对策略优化(GRPO)优化模型。REFINE适用于预训练语言模型的整个训练周期:中期训练、后期训练和测试时训练。实验表明,REFINE在LaCT-760M和DeltaNet-1.3B上表现优于基于NTP的监督微调,在针尖定位检索、长上下文问答和LongBench中的多样化任务中均取得更好效果。REFINE为改进快速权重架构中的长上下文建模提供了有效且通用的框架。

AI 推荐理由

论文聚焦于改进快速权重架构在长上下文建模中的记忆机制,提出REFINE框架以提升模型对长距离依赖的捕捉能力。

论文信息
作者 Hee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky
发布日期 2026-02-18
arXiv ID 2602.16704
相关性评分 9/10 (高度相关)