Agent Memory World Model
摘要

本文提出Infinite-World,一种能在复杂现实环境中维持超过1000帧连贯视觉记忆的鲁棒交互式世界模型。针对现有模型在真实视频中因姿态估计噪声和视角重访稀疏而难以训练的问题,作者引入分层无姿态记忆压缩器(HPMC),递归地将历史隐变量压缩为固定容量表示,并与生成主干联合优化,使模型能以有界计算成本锚定远期过去状态,无需显式几何先验。此外,提出不确定性感知动作标注模块,将连续运动离散化为三态逻辑,提升原始视频数据利用率并避免噪声轨迹污染动作空间。结合回访密集微调策略,在30分钟紧凑数据集上高效激活模型长程闭环能力。实验表明,该方法在视觉质量、动作可控性与空间一致性方面表现优越。

AI 推荐理由

论文核心提出分层无姿态记忆压缩器,直接研究Agent长期视觉记忆机制。

论文信息
作者 Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang et al.
发布日期 2026-02-02
arXiv ID 2602.02393
相关性评分 10/10 (高度相关)