摘要
世界模型旨在理解和预测动态视觉环境,但目前缺乏统一的基准来评估其基本能力。为解决这一问题,本文引入了MIND,这是首个用于评估世界模型中记忆一致性和动作控制的开放领域闭环重访基准。MIND包含250个高质量1080p和24 FPS视频,涵盖共享动作空间下的100个第一人称和100个第三人称视频片段,以及跨不同动作空间的25+25片段,覆盖八个多样化场景。我们设计了一个高效的评估框架,用于衡量两个核心能力:记忆一致性和动作控制,捕捉不同视角下的时间稳定性和上下文连贯性。此外,我们设计了多种动作空间,包括不同的角色移动速度和相机旋转角度,以评估在共享场景下跨动作空间的动作泛化能力。为促进未来在MIND上的性能基准测试,我们引入了MIND-World,一种新颖的交互式视频到世界的基线模型。大量实验表明了MIND的完整性,并揭示了当前世界模型中的关键挑战,包括长期记忆一致性维护的困难和跨动作空间的泛化能力不足。
AI 推荐理由
论文聚焦于世界模型的记忆一致性,是记忆机制的核心研究。
论文信息