Boule 或 Baguette？关于任务拓扑、长度泛化及推理痕迹益处的研究

推理模型推理痕迹长度泛化任务拓扑逻辑推理

摘要

近年来，推理模型取得了显著进展，这些模型在生成最终输出前会生成中间推理痕迹（RTs）。尽管如此，我们对RTs如何支持推理以及该范式的局限性仍缺乏深入理解。为此，我们引入了PITA数据集，包含2300多万条命题逻辑语句及其对应的证明。作为鲁棒推理的基准，我们关注长度泛化问题：如果模型被训练用于判断固定长度证明的真假，它在面对需要更长证明的语句时表现如何？我们提出了任务深度和任务广度两个概念，分别衡量解决一个任务所需的步骤数和任务中唯一示例的数量。通过在PITA子集中调整这些参数，我们发现RT模型在广泛而浅层的任务上表现良好，但在狭窄而深层的任务上相比非RT基线模型性能下降。为了验证结果是否具有普遍性，我们将结果与基于三段论的简单合成任务进行比较。我们的理论表明，RT模型在深层任务上的性能存在根本性限制，同时突出了其在广域任务中的泛化优势。总体而言，我们的研究揭示了使用推理痕迹的基本优势和局限性。

AI 推荐理由

论文聚焦于推理模型中的中间推理痕迹（RTs）及其对推理能力的影响，属于推理能力的核心研究。

论文信息

作者 William L. Tong, Ege Cakar, Cengiz Pehlevan

发布日期 2026-02-16

arXiv ID 2602.14404