evolutionary policy search curriculum learning LLM-assisted design multi-task learning interactive feedback
摘要

多任务策略搜索是一个具有挑战性的问题,因为策略需要在训练案例之外进行泛化。课程学习已被证明在此场景中有效,因为它逐步引入复杂性。然而,设计有效的课程需要大量劳动和领域专业知识。基于大语言模型(LLM)的课程生成最近才出现作为潜在解决方案,但此前仅限于静态、离线模式,无法利用优化器的实时反馈。本文提出了一种交互式LLM辅助框架,用于在线课程生成,其中LLM根据进化优化过程的实时反馈自适应地设计训练案例。我们研究了不同反馈模式(从仅数字指标到结合图表和行为可视化)如何影响LLM生成有意义课程的能力。通过一个二维机器人导航案例研究,并使用遗传编程作为优化器,我们评估了我们的方法与静态LLM生成课程和专家设计基线的对比结果。结果显示,交互式课程生成优于静态方法,结合进度图和行为可视化的多模态反馈性能可与专家设计的课程相媲美。这项工作有助于理解LLM如何作为具身人工智能系统的交互式课程设计者,并可能扩展到更广泛的进化机器人应用。

AI 推荐理由

论文聚焦于多任务进化策略搜索中的课程学习,LLM辅助的交互式课程生成直接服务于进化过程的优化。

论文信息
作者 Berfin Sakallioglu, Giorgia Nadizar, Eric Medvet
发布日期 2026-02-11
arXiv ID 2602.10891
相关性评分 9/10 (高度相关)