分层强化学习 世界模型 技能学习 样本效率
摘要

构建能够通过组合现有技能来学习新技能的智能体是AI代理研究的长期目标。为此,本文探讨了如何高效地获取一系列技能,形式化为分层神经选项。然而,现有的无模型分层强化学习算法需要大量数据。我们提出了一种新的方法,称为AgentOWL(Option and World model Learning Agent),该方法以样本高效的方式联合学习一个抽象世界模型(同时对状态和时间进行抽象)以及一组分层神经选项。我们在一组以物体为中心的Atari游戏中进行了实验,结果表明,与基线方法相比,我们的方法在使用更少数据的情况下可以学习到更多的技能。

AI 推荐理由

论文提出联合学习抽象世界模型与分层神经选项,涉及记忆机制,但非唯一主题。

论文信息
作者 Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy
发布日期 2026-02-02
arXiv ID 2602.02799
相关性评分 7/10 (相关)