摘要
KV缓存通常仅用于加速自回归解码,但其编码的上下文信息可零成本复用于下游任务。本文提出将KV缓存视为一种轻量级表征,无需重新计算或存储完整隐藏状态。尽管弱于专用嵌入,KV衍生表征在两项关键应用中表现优异:(i) 嵌入链(Chain-of-Embedding),在Llama-3.1-8B-Instruct和Qwen2-7B-Instruct上达到竞争性甚至更优性能;(ii) 快/慢思维切换(Fast/Slow Thinking Switching),在Qwen3-8B和DeepSeek-R1-Distil-Qwen-14B上实现自适应推理,最多减少5.7倍的token生成,且精度损失极小。研究确立了KV缓存作为采样与推理的有效免费基底,为大语言模型推理中的表征复用开辟新方向。
AI 推荐理由
将KV缓存作为轻量级记忆表征用于推理与采样,属记忆机制的重要应用。
论文信息