推理评估 DAG建模 奖励模型 复杂推理优化
摘要

大型推理模型(LRMs)越来越多地依赖具有复杂内部结构的推理轨迹。然而,现有研究缺乏对三个基本问题的统一答案:(1)什么是高质量的推理;(2)如何可靠地评估长且隐式结构化的推理轨迹;(3)如何利用这些评估信号进行推理优化。为了解决这些挑战,本文提供了一个统一的视角。(1)引入ME$^2$原则,从宏观和微观层面定义推理质量的效率与效果。(2)基于该原则,将推理轨迹建模为有向无环图(DAG),并开发了一种基于DAG的成对评估方法,以捕捉复杂的推理结构。(3)基于此方法,构建了TRM-Preference数据集,并训练了一个思考奖励模型(TRM),用于大规模评估推理质量。实验表明,思考奖励可以作为有效的优化信号。在测试时,选择更优的推理路径可带来更好的结果(最高提升19.3%),在强化学习训练过程中,思考奖励也能提升推理能力和性能(跨多种任务最高提升3.9%)。

AI 推荐理由

论文聚焦于推理质量的定义、评估与优化,直接对应reasoning主题。

论文信息
作者 Haoran Zhang, Yafu Li, Zhi Wang, Zhilin Wang, Shunkai Zhang et al.
发布日期 2026-02-09
arXiv ID 2602.08498
相关性评分 10/10 (高度相关)