摘要
随着参数和训练数据的增加,大规模语言模型的扩展受到高质量语料库有限和通信成本上升的限制。本文探索了一种替代方法:在不增加参数的情况下,通过将潜在思维链(CoT)内化到预训练中,提高每个标记的计算量。我们提出了一种基于标记级自适应潜在CoT的预训练方法,其中模型在生成每个标记之前生成一个可变长度的潜在CoT轨迹,并根据标记难度分配不同长度的轨迹。该行为通过在通用文本上进行单阶段预训练自然产生,并通过标记级别的自适应停止减少训练和推理中的计算量。实验表明,与之前的循环基线相比,即使使用更少的训练FLOPs,自适应潜在CoT也能持续提升语言建模的困惑度和下游任务的准确性。
AI 推荐理由
论文聚焦于提升LLM的推理能力,通过引入自适应潜在思维链机制增强模型推理效果。
论文信息