web agent world model simulation environment long-horizon planning large-scale training
摘要

Web代理需要大量轨迹数据以实现泛化,但现实世界的训练受到网络延迟、速率限制和安全风险的制约。本文引入了WebWorld系列,这是首个在大规模开放网络上训练的开源模拟器。与现有仅限于封闭环境且仅有数千条轨迹的模拟器不同,WebWorld利用可扩展的数据管道,在100万+开放网络交互中进行训练,支持推理、多格式数据以及30步以上的长时序模拟。在内在评估中,我们引入了涵盖九个维度的WebWorld-Bench,WebWorld在此基准上的表现与Gemini-3-Pro相当。在外在评估中,基于WebWorld生成的轨迹训练的Qwen3-14B在WebArena上提升了9.2%,性能接近GPT-4o。WebWorld在推理时搜索方面表现出色,作为世界模型优于GPT-5。此外,WebWorld还展示了跨领域泛化能力,适用于代码、GUI和游戏环境,为世界模型的构建提供了一种可复制的方法。

AI 推荐理由

论文聚焦于WebAgent的训练环境构建,强调长时序模拟和任务规划能力,与规划能力密切相关。

论文信息
作者 Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li et al.
发布日期 2026-02-16
arXiv ID 2602.14721
相关性评分 8/10 (高度相关)