temporal reasoning planning LVLM multimodal benchmark task decomposition
摘要

AI代理需要进行规划以实现涉及感知、子目标分解和执行的复杂目标。这些计划由按照时间执行顺序(TEO)结构化的有序步骤组成,确保每个步骤在满足前提条件后才执行。现有研究对基础模型的时间执行理解局限于自动推导的注释、将TEO近似为线性链或仅文本输入。为弥补这一不足,我们引入了MATEO(多模态时序执行顺序),一个旨在评估和提升大型视觉语言模型(LVLMs)时序推理能力的基准,以支持现实世界的规划任务。我们获取了一个高质量的专业多模态食谱语料库,通过标准化编辑流程将指令分解为离散步骤,并配以相应图像。我们通过设计可扩展的众包流程收集TEO注释作为图结构。使用MATEO,我们在不同模型规模、语言上下文、多模态输入结构和微调策略下评估了六种最先进的LVLM。

AI 推荐理由

论文聚焦于AI agent的规划能力,特别是时间执行顺序(TEO)和任务分解,直接涉及规划能力的核心机制。

论文信息
作者 Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi
发布日期 2026-02-16
arXiv ID 2602.14589
相关性评分 9/10 (高度相关)