摘要
近年来,推理模型取得了显著进展,这些模型在生成最终输出前会生成中间推理痕迹(RTs)。尽管如此,我们对RTs如何支持推理以及该范式的局限性仍缺乏深入理解。为此,我们引入了PITA数据集,包含2300多万条命题逻辑语句及其对应的证明。作为鲁棒推理的基准,我们关注长度泛化问题:如果模型被训练用于判断固定长度证明的真假,它在面对需要更长证明的语句时表现如何?我们提出了任务深度和任务广度两个概念,分别衡量解决一个任务所需的步骤数和任务中唯一示例的数量。通过在PITA子集中调整这些参数,我们发现RT模型在广泛而浅层的任务上表现良好,但在狭窄而深层的任务上相比非RT基线模型性能下降。为了验证结果是否具有普遍性,我们将结果与基于三段论的简单合成任务进行比较。我们的理论表明,RT模型在深层任务上的性能存在根本性限制,同时突出了其在广域任务中的泛化优势。总体而言,我们的研究揭示了使用推理痕迹的基本优势和局限性。
AI 推荐理由
论文聚焦于推理模型中的中间推理痕迹(RTs)及其对推理能力的影响,属于推理能力的核心研究。
论文信息