多智能体系统 教育视频生成 任务规划 LLM应用
摘要

尽管近期端到端视频生成模型在视觉内容创作方面表现出色,但在需要严格逻辑严谨性和精确知识表示的场景(如教学和教育媒体)中仍存在局限。为解决这一问题,本文提出LAVES,一种基于LLM的分层多智能体系统,用于从教育问题生成高质量的教学视频。LAVES将教育视频生成定义为一个需要正确逐步推理、教学上连贯的叙述、语义忠实的视觉演示以及精确视听对齐的多目标任务。为克服现有方法的不足,包括过程保真度低、制作成本高和可控性差,LAVES将生成流程分解为由中央协调代理管理的专用代理,并引入显式质量门控和迭代批评机制。具体而言,协调代理监督解决方案代理进行严谨的问题求解、插图代理生成可执行的可视化代码,以及叙述代理生成面向学习者的教学脚本。此外,所有工作代理的输出均需接受语义批评、基于规则的约束和工具编译检查。该系统不直接合成像素,而是构建结构化的可执行视频脚本,并通过模板驱动的装配规则确定性地编译为同步的视觉和叙述内容,实现完全自动化的端到端生产,无需人工编辑。在大规模部署中,LAVES每天可生成超过一百万部视频,在保持高接受率的同时,相比当前行业标准方法,成本降低了95%以上。

AI 推荐理由

论文提出基于LLM的多智能体系统,用于教育视频生成,涉及任务分解与协调机制,符合规划能力主题。

论文信息
作者 Lingyong Yan, Jiulong Wu, Dong Xie, Weixian Shi, Deguo Xia et al.
发布日期 2026-02-12
arXiv ID 2602.11790
相关性评分 9/10 (高度相关)