摘要
尽管通过轨迹级采样扩展测试时计算能力显著提升了图形用户界面(GUI)代理的性能,但由于缺乏回溯能力,导致无法重用部分成功经验或从早期错误中恢复。本文提出了一种名为Agent Alpha的统一框架,通过步骤级蒙特卡洛树搜索(MCTS)协同生成、探索和评估过程,从而主动建模或利用规划空间的结构。通过将alpha-UCT引导搜索集成到交互循环中,Agent Alpha实现了有意识的规划,有助于早期剪枝次优分支并高效重用前缀。此外,还采用比较驱动评估以减少绝对评分偏差,并通过多样性约束扩展来保持紧凑且信息丰富的搜索空间。对alpha-UCT的遗憾界进行了分析。在OSWorld基准测试中,Agent Alpha在等量计算条件下取得了最先进的成功率(约77%),显著优于轨迹级基线方法。
AI 推荐理由
论文涉及Agent的规划与搜索机制,提及前缀重用和探索策略,与记忆相关但非核心主题。
论文信息