强化学习 LLM推理 RLVR 梯度优化 概率质量控制
摘要

现有的基于可验证奖励的强化学习(RLVR)算法,如GRPO,依赖于僵化、统一且对称的信任区域机制,这与大型语言模型(LLMs)复杂的优化动态存在根本性不匹配。本文识别出这些方法中的三个关键挑战:(1)由于硬截断的二值截止导致的梯度利用效率低下;(2)因忽略词元分布而产生的概率质量不敏感;(3)正负样本之间信用分配模糊性差异导致的信号可靠性不对称。为弥合这些差距,我们提出了质量自适应软策略优化(MASPO),一个统一框架,旨在协调这三个维度。MASPO集成了可微分的软高斯门控以最大化梯度效用,质量自适应限制器以平衡概率谱上的探索,并非对称风险控制器以使更新幅度与信号置信度一致。大量实验表明,MASPO是一个强大且一体化的RLVR解决方案,显著优于现有基线。

AI 推荐理由

论文聚焦于提升LLM的推理能力,提出改进RLVR算法以增强推理鲁棒性和样本效率。

论文信息
作者 Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu et al.
发布日期 2026-02-19
arXiv ID 2602.17550
相关性评分 9/10 (高度相关)