摘要
通过链式思维(CoT)进行推理使大语言模型(LLMs)能够解决复杂任务,但由于生成长篇解释而带来显著的推理成本。本文提出了一种名为Thinking States的方法,在输入处理过程中进行推理。具体而言,Thinking States在每几个输入标记后生成一系列思考标记,将这些思考转换回嵌入空间,并将其添加到后续输入标记中。该方法具有两个关键优势:首先,它捕捉了CoT的递归特性,但思考标记是在输入处理过程中生成的;其次,由于思考标记以标记形式表示,因此可以从自然语言监督中学习,并利用可并行化的教师强制方法。实验证明,Thinking States在多个推理任务上优于其他潜在推理方法,在数学问题上缩小了与CoT的差距,并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中,Thinking States表现出比CoT更强的推理行为,成功地扩展到了训练期间未见过的更长序列。
AI 推荐理由
论文聚焦于LLM的推理能力,提出了一种新的隐式推理方法Thinking States,直接针对推理过程进行优化。
论文信息