摘要
为了完成用户的指令,自主的网络代理必须应对现实世界网站固有的复杂性和波动性。传统方法主要依赖监督微调(SFT)或使用静态数据集的离线强化学习(RL),但这些方法由于离线轨迹无法捕捉无约束广域网络环境中的随机状态转移和实时反馈,存在严重的分布偏移问题。本文提出了一种基于在线强化学习的WebAgent,通过直接、迭代地与无约束的广域网站交互来优化其策略。我们的方法包含三个核心创新:1)分层多任务微调:我们整理了一个由功能原语分类的数据集混合体——规划、执行和接地,构建了一个具有强大指令遵循能力的视觉-语言模型(VLM),用于Web GUI任务。2)野外在线代理式RL:我们开发了一个在线交互环境,并通过专用的RL流程对VLM进行微调。我们引入了一种混合奖励机制,结合一个无需真实值的WebJudge进行全面结果评估和基于规则的决策树(RDT)以提供进度奖励。该系统有效缓解了长时程导航中的信用分配问题。值得注意的是,我们的RL增强模型在WebArena上的成功率为38.1%(pass@5),优于所有现有的单一体系基线。3)操作员代理:我们引入了一个模块化的代理框架,即OpAgent,协调规划器、接地器、反思器和摘要器。这种协同作用使代理具备强大的错误恢复和自我纠正能力,将代理性能提升至新的最先进(SOTA)成功率71.6%。
AI 推荐理由
论文重点研究了Agent在网页导航中的任务规划与多步骤策略生成,提出了分层多任务微调和Operator Agent框架。
论文信息