摘要
循环(reusing a block of layers across depth)和深度增长(depth growing,通过复制中间层训练浅到深模型)均与更强的推理能力相关,但其关系尚不明确。本文提供了一种机制性统一:循环和深度增长模型在深度方向上表现出收敛的特征,包括对后期层的依赖增加以及与循环或增长块对齐的重复模式。这些共享特征支持了它们的增益来源于共同形式的迭代计算的观点。基于这一联系,我们展示了这两种技术具有适应性和可组合性:将推理时的循环应用于深度增长模型的中间块,可在某些推理原语上将准确率提高至原来的2倍,尽管该模型从未被训练为循环。此外,这两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外,使用更高质量、数学密集型的冷却混合物时,深度增长模型能获得最大的推理增益,这可以通过适配中间块进行循环进一步增强。总体而言,我们的结果将深度增长和循环定位为互补且实用的方法,用于诱导和扩展迭代计算以提升推理能力。
AI 推荐理由
论文聚焦于LLM的迭代计算机制,直接关联到推理能力提升,是推理能力研究的核心内容。
论文信息