摘要
现实世界中的自主规划需要协调紧密耦合的约束条件,其中单一决策将决定所有后续动作的可行性。然而,现有基准主要包含可通过局部贪心决策解决的松散耦合约束,并依赖理想化数据,无法捕捉从动态网络环境中提取参数的复杂性。本文引入了WorldTravel,一个包含5个城市中150个现实旅行场景的基准,要求处理平均15个以上相互依赖的时间和逻辑约束。为评估代理在现实部署中的表现,我们开发了WorldTravel-Webscape,一个多模态环境,包含2000多个渲染网页,代理必须直接从视觉布局中感知约束参数以进行规划。对10个前沿模型的评估显示,即使最先进的GPT-5.2在纯文本设置下仅实现32.67%的可行性,在多模态环境下则骤降至19.33%。我们识别出关键的感知-行动差距以及约10个约束条件处的规划时间跨度阈值,表明感知和推理仍是独立瓶颈。这些发现突显了下一代代理统一高保真视觉感知与长时程推理以处理脆弱现实物流的需求。
AI 推荐理由
论文聚焦于多约束条件下的任务规划,强调复杂环境中的自主规划能力,与规划能力主题高度相关。
论文信息