强化学习 策略优化 动态优势估计 推理模型 在线回滚
摘要

强化学习已成为开发复杂任务推理模型的核心技术,从数学问题求解到想象推理。这些模型的优化通常依赖于策略梯度方法,其效果取决于优势函数的准确估计。然而,现有方法通常采用静态优势估计,忽视了训练样本随时间变化的动态效用,导致信用分配效率低下,进而引发策略更新次优、收敛速度慢和学习不稳定等问题。为解决这一问题,本文提出ADORA(基于在线回滚适应的优势动态),一种新颖的策略优化框架。ADORA通过在线模型回滚过程中动态调整优势函数权重,将训练数据分类为临时有利或不利样本,从而实现更高效的策略更新。广泛的实验表明,ADORA在不同模型家族和数据规模下均表现出鲁棒性和高效性,显著提升了几何和数学任务中的长推理能力,且无需敏感的超参数调优。

AI 推荐理由

论文聚焦于强化学习中推理模型的训练,提出动态优势估计方法以提升推理能力。

论文信息
作者 Qingnan Ren, Shiting Huang, Zhen Fang, Zehui Chen, Lin Chen et al.
发布日期 2026-02-10
arXiv ID 2602.10019
相关性评分 9/10 (高度相关)