推理能力 概率流 流匹配 稀疏搜索空间 强化学习
摘要

可验证奖励强化学习(RLVR)已成为在大型语言模型中植入严格推理能力的主流范式。然而,该方法存在系统性抑制有效但罕见推理路径的问题,本文将其理论化为“归一化挤压”现象。为应对这一问题,作者提出摊销推理树搜索(ARTS),通过解耦生成与验证过程,引入流匹配目标以估计概率流守恒,从而在稀疏、高熵搜索空间中实现稳健导航。实验表明,ARTS在MATH-500基准测试中达到74.6%的性能,接近完全微调策略的表现,并在长尾子集上显著恢复性能,证明了解耦验证与生成的有效性。

AI 推荐理由

论文聚焦于增强LLM的推理能力,提出解决稀有正确推理路径被抑制的问题,并通过ARTS方法提升复杂推理任务表现。

论文信息
作者 Zesheng Hong, Jiadong Yu, Hui Pan
发布日期 2026-02-13
arXiv ID 2602.12846
相关性评分 10/10 (高度相关)