摘要
深度递归通过跨深度共享参数促进潜在推理,但现有工作缺乏在FLOP、参数量和内存方面匹配的基线,且因部分固定层堆叠而未能充分利用深度递归,并忽视了恒定隐藏维度对多步潜在推理的瓶颈。为此,我们提出一种模块化框架——深度递归注意力混合(Dreamer),融合序列注意力、深度注意力与稀疏专家注意力。该方法通过沿深度维度的注意力缓解隐藏维度瓶颈,解耦缩放维度,使深度递归模型能高效有效扩展。在语言推理基准上,该模型达到相同准确率所需训练token数仅为匹配基线的1/2至1/8,并以相同训练量超越约2倍规模的最先进模型。此外,我们揭示了不同深度间知识使用的特性,例如专家选择多样性比现有MoE模型高2至11倍。
AI 推荐理由
涉及深度递归中的隐状态管理,与记忆机制间接相关。
论文信息