摘要
自回归序列建模是现代生成式AI的基石,但其模型容量与计算成本紧密耦合:扩展参数化记忆(如事实知识或视觉模式)通常需加深或加宽网络,导致计算开销线性增长。本文提出MoVE(值嵌入混合)机制,通过在所有注意力层共享一个可学习的全局值嵌入库,并在每步序列中使用可微软门控动态混合检索到的概念与标准值投影,从而将记忆与计算解耦。该架构允许仅通过增加嵌入槽位数量独立扩展参数化记忆。在文本与图像生成任务上的严格实验表明,MoVE显著优于标准及分层记忆基线,可在相同计算预算下构建“记忆密集型”模型,实现更低困惑度与更高生成保真度。
AI 推荐理由
提出MoVE机制,直接解耦参数化记忆与计算,核心研究记忆架构。
论文信息