摘要
推理时计算(ITC)方法如Best-of-N和Tree-of-Thoughts旨在生成高质量且多样的输出候选,但其依赖高温采样往往难以实现有意义的输出多样性。此外,现有ITC方法对推理过程的控制有限,从而限制了其可解释性。本文提出STATe-of-Thoughts(STATe),一种可解释的ITC方法,通过搜索高层次的推理模式来改进推理过程。STATe用离散且可解释的文本干预替代随机采样:控制器选择编码高层次推理选择的动作,生成器根据这些选择生成推理步骤,评估器对候选结果进行评分以指导搜索。这种结构化方法带来了三大优势:首先,基于动作引导的文本干预比温度采样产生更大的响应多样性;其次,在论证生成案例研究中,STATe的显式动作序列捕捉到具有高度预测输出质量的可解释特征;第三,估计性能与动作选择之间的关联使我们能够识别出有潜力但尚未探索的动作空间区域,并直接引导生成过程朝向这些区域。综上所述,这些结果确立了STATe作为生成高质量、多样且可解释文本的实用框架。
AI 推荐理由
论文聚焦于推理过程的结构化控制与多样性生成,直接涉及LLM的推理能力提升。
论文信息