摘要
将视觉信息融入大语言模型催生了多模态大语言模型(MLLMs),但Transformer架构的二次方内存与计算开销仍是瓶颈。现有KV缓存驱逐策略未能处理视觉与文本token间异构的注意力分布,导致效率低下或性能下降。本文提出分层自适应驱逐(HAE)框架,通过预填充阶段的双注意力剪枝(利用视觉token稀疏性与注意力方差)和受操作系统回收站启发的动态解码驱逐策略,优化MLLM中文本-视觉token交互。HAE在各层最小化KV缓存使用,通过索引广播降低计算开销,并在理论上保证优于贪心策略的信息完整性与更低误差界。实验表明,在Phi3.5-Vision-Instruct模型上,HAE在图像理解任务中减少41% KV缓存内存(准确率仅下降0.3%),并在故事生成任务中实现1.5倍推理加速且保持输出质量。
AI 推荐理由
聚焦KV缓存管理,属LLM内存优化关键机制,但非通用Agent Memory架构。
论文信息