摘要
尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展,但在多视角场景下仍难以维持时空一致性,尤其在生成模型固有随机性导致的幻觉区域。为此,本文提出PlenopticDreamer框架,通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型,并结合相机引导的视频检索策略,自适应选取先前生成中的显著视频作为条件输入。此外,该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化,并支持长视频条件生成。在Basic和Agibot基准上的实验表明,PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。
AI 推荐理由
提出“spatio-temporal memory”概念用于多视角视频生成一致性,属记忆机制应用。
论文信息