长上下文 强化学习 文档重构 无监督学习 推理能力
摘要

可验证奖励强化学习(RLVR)已成为增强大语言模型(LLMs)长上下文能力的重要范式。然而,它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准,这成本高昂且耗时。本文研究无监督方法以增强LLM的长上下文能力,无需大量人工标注或教师模型监督。具体而言,我们首先在长文档中替换几个段落为特殊占位符,并通过强化学习训练LLM从候选选项中正确识别并排序缺失段落以重构文档。该训练范式使模型能够捕捉全局叙事连贯性,显著提升长上下文性能。我们在两个广泛使用的基准RULER和LongBench~v2上验证了方法的有效性,在RULER上取得明显增益,并在无需手动构建的长上下文问答数据的情况下实现合理改进。此外,我们进行了广泛的消融实验,分析奖励设计、数据策展策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布代码、数据和模型。

AI 推荐理由

论文通过文档重构提升LLM的长上下文推理能力,核心围绕推理机制优化。

论文信息
作者 Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin et al.
发布日期 2026-02-09
arXiv ID 2602.08237
相关性评分 8/10 (高度相关)