基于历史条件化多模态大语言模型的非马尔可夫多轮对话图像生成

多模态大语言模型对话记忆非马尔可夫交互图像生成

摘要

对话式图像生成要求模型在多轮交互中遵循用户指令，并以累积的图文聊天历史为依据。现有方法多采用马尔可夫假设，仅依赖最新图像，忽略长程历史。本文提出非马尔可夫设定，支持用户回溯早期状态、撤销修改或引用多轮前引入的实体。为此，作者构建了包含回滚编辑和基于名称的跨轮个性化等非马尔可夫数据；设计了带token级缓存的历史条件化训练与推理框架，防止身份漂移；并引入基于重建的DiT解码器与多阶段微调策略，提升图像保真度与可编辑性。实验表明，该方法显著增强多轮一致性与指令遵循能力，同时保持单轮编辑性能。

AI 推荐理由

论文聚焦多轮对话中对历史状态的长期依赖与检索，涉及记忆机制的关键应用。

论文信息

作者 Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li et al.

发布日期 2026-01-28

arXiv ID 2601.20911