摘要
视觉隐喻是一种高阶人类创造力形式,通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得显著进展,现有模型仍局限于像素级指令对齐与表层外观保持,难以捕捉实现真正隐喻生成所需的底层抽象逻辑。为此,本文提出视觉隐喻迁移(VMT)任务,要求模型自主解耦参考图像中的“创意本质”,并将该抽象逻辑重新具象化到用户指定的目标主体上。我们构建了一个受认知启发的多智能体框架,通过新颖的图式语法(“G”)实现概念融合理论(CBT)的操作化,该结构化表示将关系不变量与具体视觉实体解耦,为跨域逻辑重实例化提供坚实基础。实验表明,该方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最先进方法。
AI 推荐理由
涉及抽象逻辑的提取与跨域重实例化,隐含记忆机制但非核心焦点。
论文信息