GUI导航 强化学习 策略优化 多模态大语言模型
摘要

近年来,多模态大语言模型(MLLMs)显著推动了图形用户界面(GUI)自主代理的发展。然而,在实际应用中,GUI代理常面临非平稳环境,导致数据整理和策略优化的计算成本较高。本文提出了一种以MLLM为中心的新框架,包含两个组件:智能体Q估计和逐步策略优化。前者旨在优化一个Q模型,用于生成逐步值以评估特定动作对任务完成的贡献;后者则以状态-动作轨迹的逐步样本为输入,利用我们的智能体Q模型通过强化学习优化策略。实验表明,该框架赋予Ovis2.5-9B强大的GUI交互能力,在GUI导航和定位基准测试中表现出色,甚至超越了更大规模的竞争者。

AI 推荐理由

论文聚焦于GUI导航中的任务规划与策略优化,属于规划能力的核心研究。

论文信息
作者 Yibo Wang, Guangda Huzhang, Yuwei Hu, Yu Xia, Shiyin Lu et al.
发布日期 2026-02-14
arXiv ID 2602.13653
相关性评分 9/10 (高度相关)