课程学习 环境生成 长期规划 智能体训练
摘要

开放世界学习将智能视为从不断扩展的环境空间中持续交互中涌现。尽管近期研究利用基础模型生成多样化环境,但这些方法通常关注于发现孤立行为而非持续进步。在复杂的开放世界中,可能挑战的组合空间庞大,使得智能体难以发现持续可学习的经验序列。为此,我们提出DiCode框架,使基础模型合成可执行的环境代码以促进向更高能力的学习。在DiCode中,“梦境”表现为世界代码级别的变化。我们在Craftax基准上实现DiCode,该基准具有丰富的机制和长期进展特征。实验证明,DiCode使智能体能够获得长期技能,在平均回报上比最强基线提高16%,并在后期战斗任务中取得非零成功率,而此前方法无法完成。我们的结果表明,代码级别环境设计为课程控制提供了实用机制,有助于构建连接能力差距的中间环境。

AI 推荐理由

论文提出通过代码生成环境来引导智能体逐步学习复杂技能,属于任务规划与长期目标导向行为的核心研究。

论文信息
作者 Konstantinos Mitsides, Maxence Faldor, Antoine Cully
发布日期 2026-02-09
arXiv ID 2602.08194
相关性评分 9/10 (高度相关)