蒙特卡洛树搜索 扩散语言模型 生成顺序优化 任务规划
摘要

尽管在掩码扩散模型(MDMs)中采用计划-填充解码策略在数学和代码推理方面表现出潜力,但其性能高度依赖于槽位填充顺序,常导致输出结果的显著波动。本文提出McDiffuSE框架,将槽位选择建模为决策过程,并通过蒙特卡洛树搜索(MCTS)优化填充顺序。该框架利用前瞻模拟评估部分完成情况,在承诺前系统探索生成顺序的组合空间。实验表明,与自回归基线相比,McDiffuSE平均提升了3.2%,与基线计划-填充方法相比提升了8.0%,在MBPP和MATH500数据集上分别提升了19.5%和4.9%。分析发现,虽然McDiffuSE主要遵循顺序生成,但引入非顺序生成对最大化性能至关重要。研究还发现,增加探索常数比增加模拟次数更有效,有助于克服模型置信度偏差并发现有效的顺序。这些发现确立了基于MCTS的规划方法作为提升MDMs生成质量的有效途径。

AI 推荐理由

论文提出基于MCTS的规划方法优化槽位填充顺序,直接涉及Agent的生成规划能力。

论文信息
作者 Joshua Ong Jun Leang, Yu Zhao, Mihaela Cătălina Stoian, Wenda Li, Shay B. Cohen et al.
发布日期 2026-02-13
arXiv ID 2602.12586
相关性评分 9/10 (高度相关)