摘要
自回归视频扩散模型支持流式生成,适用于长视频合成与交互式神经游戏引擎,但其注意力层在推理时因KV缓存持续增长而成为瓶颈,导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余:帧间近重复键、缓慢演化的语义查询/键,以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架:TempCache通过时序对应压缩KV缓存;AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力;AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销,在保持视觉质量的同时实现5–10倍端到端加速,并在长时间推理中维持稳定吞吐与近恒定峰值显存。
AI 推荐理由
聚焦KV缓存压缩与内存优化,属Agent Memory相关机制。
论文信息