视频生成 时空一致性
摘要

尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展,但在多视角场景下仍难以维持时空一致性,尤其在生成模型固有随机性导致的幻觉区域。为此,本文提出PlenopticDreamer框架,通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型,并结合相机引导的视频检索策略,自适应选取先前生成中的显著视频作为条件输入。此外,该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化,并支持长视频条件生成。在Basic和Agibot基准上的实验表明,PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。

AI 推荐理由

提出“spatio-temporal memory”概念用于多视角视频生成一致性,属记忆机制应用。

论文信息
作者 Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.
发布日期 2026-01-08
arXiv ID 2601.05239
相关性评分 6/10 (相关)