摘要
上下文强化学习(ICRL)利用Transformer模型的上下文学习能力,在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有ICRL方法依赖预训练阶段的显式奖励信号,限制了其在奖励模糊、难以定义或获取成本高的场景中的应用。为解决这一问题,本文提出了一种新的学习范式——基于偏好的上下文强化学习(ICPRL),该方法在预训练和部署阶段仅依赖偏好反馈,消除了对奖励监督的需求。研究了两种变体:基于即时偏好反馈的I-PRL和基于轨迹级比较的T-PRL。实验表明,ICPRL能够在无奖励监督的情况下实现强上下文泛化,性能可与使用完整奖励监督的ICRL方法媲美。
AI 推荐理由
论文探讨了基于偏好反馈的强化学习方法,与任务规划和目标导向行为相关。
论文信息