摘要
强化学习(RL)已成为训练移动GUI代理的主要范式,但在长期任务中面临时间信用分配问题。主要挑战在于奖励保真度与密度之间的权衡:结果奖励具有高保真度但信号稀疏,过程奖励提供密集监督但易受偏差和奖励黑客攻击。为了解决这一冲突,我们提出了自适应里程碑奖励(ADMIRE)机制。ADMIRE通过将轨迹锚定到从成功探索中动态提炼出的里程碑,构建了一个可验证的自适应奖励系统。关键的是,ADMIRE集成了非对称信用分配策略,用于去噪成功轨迹并支撑失败轨迹。大量实验表明,ADMIRE在AndroidWorld上不同基础模型的成功率绝对提升了10%以上。此外,该方法表现出强大的泛化能力,在多种RL算法和异构环境中(如网页导航和具身任务)均取得良好性能。
AI 推荐理由
论文聚焦于通过自适应里程碑奖励机制提升GUI Agent在长期任务中的规划与执行能力,直接关联到任务分解和目标导向行为。
论文信息