摘要
尽管显式的思维链(CoT)赋予了大语言模型(LLMs)强大的推理能力,但它要求模型在文本标记中表达每一个中间步骤,从而将模型的思考限制在离散的词汇空间中。最近,连续潜在空间中的推理作为一种有前途的替代方案出现,使推理和计算超越了离散标记的限制,更加稳健和灵活。然而,当前的潜在推理范式常常受到特征坍缩和不稳定的影响,这源于在递归使用隐藏状态作为输入嵌入时的分布不匹配问题,或依赖辅助模型时的对齐问题。为了解决这些问题,我们提出了潜在思维调优(LT-Tuning),一种重新定义潜在思维构建和部署方式的框架。我们的方法不再仅仅依赖于原始的隐藏状态,而是引入了一个上下文-预测-融合机制,联合利用上下文隐藏状态和来自词汇嵌入空间的预测语义指导。结合渐进的三阶段课程学习流程,LT-Tuning还能够动态切换潜在和显式思考模式。实验表明,我们的方法优于现有的潜在推理基线,在有效缓解特征坍塌的同时实现了稳健的推理精度。
AI 推荐理由
论文聚焦于提升LLM的推理能力,提出新的隐空间推理框架,直接针对推理机制进行改进。
论文信息