摘要
开发能够开放性地发现和学习新技能的智能体是人工智能领域的一大挑战。尽管强化学习为训练智能体掌握复杂技能提供了强大框架,但通常依赖人工设计的奖励函数,这在开放性技能发现中不可行。本文提出CODE-SHARP框架,利用基础模型(FM)自动扩展和优化分层技能库,结构为可执行奖励函数的有向图。实验表明,仅通过发现的SHARP技能生成的奖励训练的目标条件智能体,能够在Craftax环境中解决越来越复杂的长期目标任务。当由基于FM的高层规划器组合时,所发现的技能使单一目标条件智能体能够完成复杂任务,平均性能超过预训练智能体和任务特定专家策略134%以上。
AI 推荐理由
论文核心聚焦于技能的开放发现与进化,提出CODE-SHARP框架用于自动化设计奖励函数以学习新技能。
论文信息