推理模型 推理痕迹 长度泛化 任务拓扑 逻辑推理
摘要

近年来,推理模型取得了显著进展,这些模型在生成最终输出前会生成中间推理痕迹(RTs)。尽管如此,我们对RTs如何支持推理以及该范式的局限性仍缺乏深入理解。为此,我们引入了PITA数据集,包含2300多万条命题逻辑语句及其对应的证明。作为鲁棒推理的基准,我们关注长度泛化问题:如果模型被训练用于判断固定长度证明的真假,它在面对需要更长证明的语句时表现如何?我们提出了任务深度和任务广度两个概念,分别衡量解决一个任务所需的步骤数和任务中唯一示例的数量。通过在PITA子集中调整这些参数,我们发现RT模型在广泛而浅层的任务上表现良好,但在狭窄而深层的任务上相比非RT基线模型性能下降。为了验证结果是否具有普遍性,我们将结果与基于三段论的简单合成任务进行比较。我们的理论表明,RT模型在深层任务上的性能存在根本性限制,同时突出了其在广域任务中的泛化优势。总体而言,我们的研究揭示了使用推理痕迹的基本优势和局限性。

AI 推荐理由

论文聚焦于推理模型中的中间推理痕迹(RTs)及其对推理能力的影响,属于推理能力的核心研究。

论文信息
作者 William L. Tong, Ege Cakar, Cengiz Pehlevan
发布日期 2026-02-16
arXiv ID 2602.14404
相关性评分 10/10 (高度相关)