摘要
基于大语言模型的网络代理在自动化网络任务方面展现出巨大潜力。然而,当前网络代理由于难以预测环境变化,导致推理出的动作不够合理,并且可能缺乏对执行风险的全面认知,从而过早采取高风险动作,造成损失并导致任务失败。为了解决这些问题,本文提出WAC,一种结合模型协作、后果模拟和反馈驱动动作优化的网络代理系统。通过引入多代理协作机制,使动作模型能够咨询作为网络环境专家的世界模型以获取战略指导;同时利用环境状态转移动态的先验知识来增强候选动作提案。为了实现风险感知的任务执行,本文引入了一个两阶段的推理链:世界模型模拟动作结果,法官模型则对其进行审查并在必要时触发动作修正反馈。实验表明,WAC在VisualWebArena和Online-Mind2Web数据集上分别取得了1.8%和1.3%的绝对性能提升。
AI 推荐理由
论文重点研究了基于世界模型的推理与行动修正机制,直接涉及LLM/Agent的推理能力提升。
论文信息