全视视频生成 - Memory Bank

摘要

尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展，但在多视角场景下仍难以维持时空一致性，尤其在生成模型固有随机性导致的幻觉区域。为此，本文提出PlenopticDreamer框架，通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型，并结合相机引导的视频检索策略，自适应选取先前生成中的显著视频作为条件输入。此外，该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化，并支持长视频条件生成。在Basic和Agibot基准上的实验表明，PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。

AI 推荐理由

提出“spatio-temporal memory”概念用于多视角视频生成一致性，属记忆机制应用。

论文信息

作者 Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.

发布日期 2026-01-08

arXiv ID 2601.05239