摘要
在交互环境中对GUI代理进行后训练对于发展其泛化能力和长期规划能力至关重要。然而,在真实世界应用中进行训练受到高延迟、较差的可重复性以及依赖噪声视觉代理的不可验证奖励的限制。为了解决这些限制,我们提出了GUI-GENESIS,这是首个能够自动合成高效GUI训练环境并具有可验证奖励的框架。GUI-GENESIS利用多模态代码模型将真实世界应用重构为轻量级网络环境,并为其配备原生代码奖励,提供确定性的奖励信号并消除视觉估计噪声。大量实验表明,与在真实应用上训练相比,GUI-GENESIS将环境延迟降低了10倍,每个训练周期的成本减少了超过28,000美元。值得注意的是,使用GUI-GENESIS训练的代理在保留的真实世界任务上比基础模型提高了14.54%,甚至比现实世界的强化学习基线模型提高了3.27%。最后,我们观察到模型可以合成它们目前还无法解决的环境,这为自我改进的代理提供了一条路径。
AI 推荐理由
论文聚焦于提升Agent的长期规划能力,通过构建高效可验证奖励环境实现后训练。
论文信息