web agent trajectory evaluation data generation fine-grained assessment task planning
摘要

本文提出了一种可扩展的管道,用于自动生成高质量的网络代理训练数据。识别高质量训练实例的主要挑战在于轨迹评估——量化任务完成的进展程度。我们引入了一种基于约束的评估框架,能够对任务完成的进展进行细粒度评估。这使得我们可以利用部分成功的轨迹,显著扩大可用训练数据量。我们在提出的名为BookingArena的新基准上评估了该方法,该基准包含20个流行网站上的复杂预订任务。实验表明,我们的蒸馏学生模型在性能上优于开源方法,并匹配或超越商业系统,同时模型规模显著更小。本研究解决了高效创建多样化、真实网络交互数据集的挑战,并为复杂结构化网络任务提供了系统的评估方法。

AI 推荐理由

论文聚焦于任务规划中的轨迹评估与数据生成,直接关联Agent的规划能力提升。

论文信息
作者 Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Creighton Glasscock, Honglak Lee
发布日期 2026-02-13
arXiv ID 2602.12544
相关性评分 8/10 (高度相关)