chain-of-thought self-evolving reward model reinforcement learning LLM reasoning
摘要

尽管思维链(CoT)在大语言模型(LLM)推理中起着关键作用,但直接对其进行奖励具有挑战性:训练奖励模型需要大量的人工标注工作,而静态奖励模型难以应对不断变化的CoT分布和奖励黑客问题。为了解决这些问题,本文提出了一种无需人工标注且能逐步进化的自主CoT奖励方法。受近期自进化训练方法的启发,我们提出了RLCER(基于自进化评分标准的强化学习),该方法通过自提出和自进化的评分标准增强以结果为中心的RLVR。实验表明,即使没有结果奖励,这些自提出和自进化的评分标准也能提供可靠的CoT监督信号,使RLCER优于以结果为中心的RLVR。此外,当用作提示中的提示时,这些自提出的评分标准进一步提升了推理时的表现。

AI 推荐理由

论文聚焦于增强LLM的推理能力,通过自进化评分标准优化思维链推理。

论文信息
作者 Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang et al.
发布日期 2026-02-11
arXiv ID 2602.10885
相关性评分 9/10 (高度相关)