多智能体是否梦想着电子屏幕？通过任务分解在AndroidWorld中实现完美准确率

多智能体系统任务分解 AndroidWorld 元认知推理规划能力

摘要

本文提出Minitap，一种多智能体系统，在AndroidWorld基准测试中实现了100%的成功率，首次完全解决了所有116个任务，并超越了人类表现（80%）。我们首先分析了单智能体架构失败的原因：混合推理痕迹导致的上下文污染、未被智能体检测到的静默文本输入失败以及无法逃脱的重复动作循环。Minitap通过针对性机制解决这些问题：六个专门化智能体之间的认知分离、基于设备状态对文本输入进行确定性后验证，以及能够检测循环并触发策略变化的元认知推理。消融实验表明，多智能体分解相比单智能体基线提升了21个百分点；验证执行提升了7个百分点；元认知提升了9个百分点。我们发布了Minitap作为开源软件。

AI 推荐理由

论文聚焦于多智能体系统的任务分解与规划能力，以实现AndroidWorld基准的完美成功率。

论文信息

作者 Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier, Nicolas Dehandschoewercker et al.

发布日期 2026-02-08

arXiv ID 2602.07787