摘要
大语言模型(LLMs)的键值(KV)缓存基于前缀,难以高效处理任意顺序检索的上下文。位置无关缓存(PIC)虽被提出以解除位置约束并支持KV复用,但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器,并显式训练其支持PIC,提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明,COMB在保持相当精度的前提下,将首Token生成时间(TTFT)降低51–94%,吞吐量提升3倍,并在DeepSeek-V2-Lite-Chat上验证了其通用性。
AI 推荐理由
聚焦KV缓存优化,属LLM推理内存机制关键改进。
论文信息