推理优化 缓存管理 参数高效微调 强化学习训练
摘要

大型推理模型(LRMs)在复杂问题上表现出色,但面临效率瓶颈:基于强化学习的训练需要长序列展开以获取结果奖励,而自回归解码占用了大量时间和内存。尽管滑动窗口缓存策略可以限制内存使用,但会破坏长上下文推理并降低性能。本文提出渐进式思维编码(Progressive Thought Encoding),一种参数高效的微调方法,使LRMs能够在固定大小的缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示,该方法消除了对完整缓存展开进行反向传播的需求,从而减少内存使用,并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行的实验表明,在六个广泛使用的数学基准测试中,该方法平均比基于LoRA的微调提升了19.3%,比未微调的LRMs提升了29.9%,在AIME2024/2025数据集上最高提升了23.4个百分点。这些结果表明,渐进式思维编码不仅提高了推理准确性,还显著提升了LRMs在现实世界内存限制下的强化学习训练效率和可扩展性。

AI 推荐理由

论文聚焦于提升大模型的推理能力,提出了一种高效的训练方法以增强其在有限缓存下的推理表现。

论文信息
作者 Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.
发布日期 2026-02-18
arXiv ID 2602.16839
相关性评分 10/10 (高度相关)