In-Context Learning Reinforcement Learning Reasoning Hypothesis State Coverage
摘要

实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为解决这一问题,我们提出了长度激励探索(Length-Incentivized Exploration)方法。该方法通过结合基于长度的奖励与冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3、Llama)上的全面实验表明,该方法有效激励了上下文探索。结果表明,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中提升了2.7%。

AI 推荐理由

论文聚焦于提升LLM的推理能力,通过鼓励更长的推理轨迹来增强上下文探索,直接关联到推理机制的改进。

论文信息
作者 Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.
发布日期 2026-02-12
arXiv ID 2602.11748
相关性评分 9/10 (高度相关)