摘要
分层目标条件强化学习(H-GCRL)为解决复杂、长期任务提供了一个强有力的框架,通过将其分解为结构化的子目标。然而,其实际应用受到数据效率低下和策略表达能力有限的阻碍,尤其是在离线或数据稀缺的情况下。本文提出了一种基于归一化流的分层隐式Q学习(NF-HIQL)新框架,在分层的高低层均用表达能力强的归一化流策略替代单峰高斯策略。该设计实现了可计算的对数似然、高效采样以及对丰富多模态行为的建模。理论分析推导了新的保证,包括针对RealNVP策略的显式KL散度界和PAC风格的样本效率结果,表明NF-HIQL在保持稳定性的同时提升了泛化能力。实验部分在OGBench平台上的多种长期任务(如运动、控球和多步操作)中评估了NF-HIQL,结果显示其优于先前的目标条件和分层基线方法,表现出在数据有限情况下的优越鲁棒性,并突显了基于流架构在可扩展、数据高效的分层强化学习中的潜力。
AI 推荐理由
论文聚焦于分层目标条件强化学习,涉及任务分解与长期规划,属于规划能力的核心研究。
论文信息