摘要
在潜层推理模型中,推理时扩展(ITS)通常通过启发式扰动(如dropout或固定高斯噪声)引入随机性。尽管这些方法能增加轨迹多样性,但其探索行为未被显式建模,在有限采样预算下可能效率低下。本文观察到更强的扰动并不一定带来更有效的候选轨迹,因为无指导的噪声可能会破坏内部决策结构而非引导其发展。为此,本文将潜层思维探索建模为从可学习密度中进行条件采样,并提出高斯思维采样器(GTS)。GTS预测与上下文相关的连续推理状态扰动分布,并在保持主干模型冻结的情况下,使用GRPO风格的策略优化进行训练。在GSM8K数据集上的实验表明,GTS在推理时扩展方面比启发式基线方法更可靠。这些发现表明,改进潜层ITS需要结构化且可优化的探索机制,而不仅仅是放大随机性。
AI 推荐理由
论文聚焦于推理模型中的推理轨迹扩展机制,直接涉及LLM的推理能力提升。
论文信息