摘要
标准Transformer的二次复杂度及不断增长的键值(KV)缓存严重阻碍了长上下文处理。为此,本文提出协作记忆Transformer(CoMeT),一种新型架构,使大语言模型能以恒定内存占用和线性时间复杂度处理任意长度序列。CoMeT作为即插即用模块,仅需少量微调即可集成至预训练模型。其采用双记忆系统:基于FIFO队列的临时记忆存储近期事件,带门控更新规则的全局记忆捕获长程依赖,并共同构成下一数据块的动态软提示。为支持超长上下文高效微调,作者还提出层间流水并行策略。实验表明,经32k上下文微调的CoMeT模型可在百万token序列中精准检索任意位置的密钥,在SCROLLS摘要任务上媲美全注意力基线,并在真实Agent与用户行为问答任务中验证了实用性。
AI 推荐理由
论文核心提出协作记忆机制,直接解决Agent长期上下文记忆问题。
论文信息