KV缓存优化 稀疏注意力
摘要

自回归视频扩散模型支持流式生成,适用于长视频合成与交互式神经游戏引擎,但其注意力层在推理时因KV缓存持续增长而成为瓶颈,导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余:帧间近重复键、缓慢演化的语义查询/键,以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架:TempCache通过时序对应压缩KV缓存;AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力;AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销,在保持视觉质量的同时实现5–10倍端到端加速,并在长时间推理中维持稳定吞吐与近恒定峰值显存。

AI 推荐理由

聚焦KV缓存压缩与内存优化,属Agent Memory相关机制。

论文信息
作者 Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik et al.
发布日期 2026-02-02
arXiv ID 2602.01801
相关性评分 6/10 (相关)