通过智能体Q估计和逐步策略优化构建自主GUI导航系统

GUI导航强化学习策略优化多模态大语言模型

摘要

近年来，多模态大语言模型（MLLMs）显著推动了图形用户界面（GUI）自主代理的发展。然而，在实际应用中，GUI代理常面临非平稳环境，导致数据整理和策略优化的计算成本较高。本文提出了一种以MLLM为中心的新框架，包含两个组件：智能体Q估计和逐步策略优化。前者旨在优化一个Q模型，用于生成逐步值以评估特定动作对任务完成的贡献；后者则以状态-动作轨迹的逐步样本为输入，利用我们的智能体Q模型通过强化学习优化策略。实验表明，该框架赋予Ovis2.5-9B强大的GUI交互能力，在GUI导航和定位基准测试中表现出色，甚至超越了更大规模的竞争者。

AI 推荐理由

论文聚焦于GUI导航中的任务规划与策略优化，属于规划能力的核心研究。

论文信息

作者 Yibo Wang, Guangda Huzhang, Yuwei Hu, Yu Xia, Shiyin Lu et al.

发布日期 2026-02-14

arXiv ID 2602.13653