摘要
思维链(CoT)推理及其变体显著提升了语言模型在复杂推理任务中的表现,但不同策略如何促进泛化的具体机制仍不明确。当前解释通常指向测试时计算量的增加或结构指导,但建立这些因素与泛化之间的定量联系仍具挑战性。本文提出内在维度作为衡量推理链有效性的量化指标,该指标量化了完成特定任务达到一定准确率所需的最小模型维度。通过固定模型架构并改变任务表述方式,我们发现有效的推理策略能持续降低任务的内在维度。在GSM8K数据集上使用Gemma-3 1B和4B验证后,观察到推理策略的内在维度与其在分布内和分布外数据上的泛化性能之间存在强负相关。我们的研究结果表明,有效的推理链通过更高效地压缩任务参数来促进学习,为分析推理过程提供了新的量化度量。
AI 推荐理由
论文核心研究推理链对任务泛化能力的影响,直接关联推理能力主题。
论文信息