摘要
近年来,多模态大语言模型(MLLMs)显著推动了图形用户界面(GUI)自主代理的发展。然而,在实际应用中,GUI代理常面临非平稳环境,导致数据整理和策略优化的计算成本较高。本文提出了一种以MLLM为中心的新框架,包含两个组件:智能体Q估计和逐步策略优化。前者旨在优化一个Q模型,用于生成逐步值以评估特定动作对任务完成的贡献;后者则以状态-动作轨迹的逐步样本为输入,利用我们的智能体Q模型通过强化学习优化策略。实验表明,该框架赋予Ovis2.5-9B强大的GUI交互能力,在GUI导航和定位基准测试中表现出色,甚至超越了更大规模的竞争者。
AI 推荐理由
论文聚焦于GUI导航中的任务规划与策略优化,属于规划能力的核心研究。
论文信息