GUI智能体 状态回溯 任务规划 长视野执行
摘要

图形用户界面(GUI)智能体旨在自动化重复性任务以提升效率,但现有方法在探索路径出错后难以恢复,常导致任务失败。本文将GUI任务执行建模为深度优先搜索(DFS)过程,提出BEAP-Agent框架,支持长距离、多层次的状态回溯,并结合动态任务跟踪与更新机制。该框架由规划器(Planner)、执行器(Executor)和追踪器(Tracker)三个协同组件构成,有效提升任务探索与执行能力。BEAP-Agent填补了GUI智能体系统化回溯机制的空白,为长视野任务探索提供系统性解决方案。在OSWorld基准上的系统评估显示,该方法达到28.2%的准确率,验证了其有效性。

AI 推荐理由

提出多层级状态回溯机制,隐含短期记忆与状态追踪,但未显式研究记忆架构。

论文信息
作者 Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang et al.
发布日期 2026-01-29
arXiv ID 2601.21352
相关性评分 6/10 (相关)