并行推理 强化学习 路径探索 信息瓶颈 数学推理
摘要

并行思考作为一种新的范式,已被用于大型推理模型(LRMs)解决复杂问题。近期方法利用强化学习(RL)来增强并行思考,以应对监督微调在计算资源和效果上的限制。然而,现有研究主要关注聚合阶段的优化,对路径探索阶段关注较少。本文在可验证奖励强化学习(RLVR)框架下,理论分析了并行思考的优化,并指出探索路径间的互信息瓶颈是限制整体性能的根本原因。为此,我们提出大纲引导的路径探索(OPE),通过生成多样化的推理大纲,在并行路径推理前显式划分解空间,从而减少信息冗余并提高探索路径中捕获的信息多样性。我们采用迭代RL策略独立优化大纲规划和大纲引导推理。大量实验表明,OPE在不同聚合策略下有效提升了推理性能,使LRMs更可靠地发现正确解。

AI 推荐理由

论文聚焦于提升大型推理模型的并行推理能力,直接涉及推理机制与路径探索优化。

论文信息
作者 Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang et al.
发布日期 2026-02-09
arXiv ID 2602.08344
相关性评分 9/10 (高度相关)