移动GUI代理 意图对齐 任务规划 多智能体评估
摘要

在移动GUI代理领域,基准测试对于评估进展至关重要。然而,现有基准通常假设用户指令是完整且明确的,忽略了实际场景中用户表达常含糊不清的问题。为此,本文提出AmbiBench,首个引入指令清晰度分类体系的基准,将评估从单向指令遵循转向双向意图对齐。基于认知差距理论,该基准定义了四个清晰度等级,并构建了包含240个生态有效任务的数据集。同时,研究开发了MUSE框架,通过多智能体架构实现对执行效果、质量及交互质量的细粒度评估。实验结果揭示了当前最优代理在不同清晰度等级下的性能边界,并验证了MUSE与人类判断的高度一致性。

AI 推荐理由

论文聚焦于移动GUI代理在模糊指令下的任务规划与意图对齐,强调交互式执行和动态环境中的目标导向行为。

论文信息
作者 Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu et al.
发布日期 2026-02-12
arXiv ID 2602.11750
相关性评分 9/10 (高度相关)