测试时缩放 KV缓存优化
摘要

序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法,但现有实现存在明显局限:延长推理长度虽可提升准确率,但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek,在广泛推理长度范围内显著提升模型准确率,稳定序列缩放效果,并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对,具备内在高效性。通过定制化KV缓存(存储不含位置编码的键,并在每次生成新推理前动态连续编码),该方法可突破模型最大上下文长度限制,在温和条件下实现线性计算复杂度。

AI 推荐理由

涉及KV缓存管理与上下文扩展,属记忆机制应用层面。

论文信息
作者 Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi
发布日期 2026-01-14
arXiv ID 2601.09855
相关性评分 5/10 (一般相关)