强化学习 长上下文推理
摘要

尽管强化学习(RL)已推动大语言模型(LLM)的推理能力,但在长上下文场景中仍受限于结果奖励的稀疏性,难以惩罚无依据的“幸运猜测”,导致关键的“大海捞针”式证据检索过程缺乏监督。为此,本文提出EAPO(Evidence-Augmented Policy Optimization)。首先确立证据增强推理范式,并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法,由奖励模型计算群体相对证据奖励,提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性,进一步设计自适应奖励-策略协同进化机制,利用结果一致的rollout迭代优化奖励模型,增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明,EAPO显著优于当前最先进基线。

AI 推荐理由

涉及证据检索与长期上下文处理,间接关联记忆机制。

论文信息
作者 Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.
发布日期 2026-01-15
arXiv ID 2601.10306
相关性评分 5/10 (一般相关)