摘要
强化学习(RL)已成为激发大语言模型(LLM)复杂推理能力的关键手段。然而,在长周期轨迹生成过程中存储键值(KV)缓存带来的巨大内存开销,成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段,但直接用于RL训练会引发严重的策略不匹配,导致性能崩溃。为此,本文提出Sparse-RL,通过稀疏感知拒绝采样与基于重要性的重加权机制,校正因压缩导致的信息损失所引入的离策略偏差,从而实现稳定训练。实验表明,Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能,并天然支持稀疏推理部署,提升模型鲁棒性。
AI 推荐理由
聚焦KV缓存压缩对RL训练的影响,属LLM Agent内存效率关键问题。
论文信息