KV缓存 位置无关缓存
摘要

大语言模型(LLMs)的键值(KV)缓存基于前缀,难以高效处理任意顺序检索的上下文。位置无关缓存(PIC)虽被提出以解除位置约束并支持KV复用,但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器,并显式训练其支持PIC,提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明,COMB在保持相当精度的前提下,将首Token生成时间(TTFT)降低51–94%,吞吐量提升3倍,并在DeepSeek-V2-Lite-Chat上验证了其通用性。

AI 推荐理由

聚焦KV缓存优化,属LLM推理内存机制关键改进。

论文信息
作者 Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen
发布日期 2026-02-02
arXiv ID 2602.01519
相关性评分 8/10 (高度相关)