循环Transformer 潜在推理 预算感知建模 语言建模 自适应计算
摘要

循环Transformer已成为语言领域推理任务中高效且强大的模型类别。近期研究表明,这些模型在算法和推理任务中表现出色,表明循环架构具有对潜在推理的归纳偏置。然而,先前方法在训练和推理过程中固定了循环迭代次数,未解决模型是否能根据计算预算灵活调整计算深度的问题。本文提出LoopFormer,一种基于可变长度轨迹训练的循环Transformer,支持预算条件下的推理。其核心贡献是一种快捷一致性训练方案,对齐不同长度的轨迹,确保较短循环生成信息丰富的表示,而较长循环则继续优化这些表示。LoopFormer根据当前时间和步长对每个循环进行条件化,使不同长度轨迹的表示能够一致演化,而非漂移或停滞。实验证明,即使在严格的计算约束下,LoopFormer在语言建模和推理基准测试中仍表现出稳健性能,并能随着预算增加优雅扩展。这些结果表明,循环Transformer本质上适合自适应语言建模,为可控且预算感知的大语言模型开辟了新路径。

AI 推荐理由

论文聚焦于Looped Transformers在推理任务中的表现及适应性,直接关联推理能力提升。

论文信息
作者 Ahmadreza Jeddi, Marco Ciccone, Babak Taati
发布日期 2026-02-11
arXiv ID 2602.11451
相关性评分 9/10 (高度相关)