实现原生位置无关缓存需要编码器

KV缓存位置无关缓存

摘要

大语言模型（LLMs）的键值（KV）缓存基于前缀，难以高效处理任意顺序检索的上下文。位置无关缓存（PIC）虽被提出以解除位置约束并支持KV复用，但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器，并显式训练其支持PIC，提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明，COMB在保持相当精度的前提下，将首Token生成时间（TTFT）降低51–94%，吞吐量提升3倍，并在DeepSeek-V2-Lite-Chat上验证了其通用性。

AI 推荐理由

聚焦KV缓存优化，属LLM推理内存机制关键改进。

论文信息

作者 Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen

发布日期 2026-02-02

arXiv ID 2602.01519