Chain-of-Thought Reinforcement Learning Reasoning Compression GRPO
摘要

大型语言模型(LLMs)在生成链式推理(Chain-of-Thought, CoT)时往往产生冗余内容,增加了计算成本和延迟,而性能提升有限。本文提出了一种基于强化学习的细粒度组策略优化算法(FGO),通过细分组响应并根据长度和熵分配适当权重,实现有效的CoT压缩。同时,作为Group Relative Policy Optimization(GRPO)的增强变体,FGO成功解决了GRPO的两个主要限制:数据利用效率低和熵崩溃问题。我们在多个推理任务上的实验表明,FGO能够在不降低性能的前提下实现高效的CoT压缩,并有效解决GRPO的关键局限。

AI 推荐理由

论文聚焦于Chain-of-Thought(CoT)推理的压缩优化,直接关联LLM的推理能力提升。

论文信息
作者 Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin
发布日期 2026-02-10
arXiv ID 2602.10048
相关性评分 9/10 (高度相关)