摘要
本文研究了如何训练一个强化学习代理以遵循用线性时序逻辑(LTL)表示的多个时间扩展指令,并在子符号环境中实现零样本泛化。以往的多任务工作通常依赖于原始观察与公式中符号之间的映射知识。本文通过联合训练一个多任务策略和一个符号接地器,消除了这一不现实的假设。符号接地器仅从原始观察和稀疏奖励中通过神经奖励机器以半监督方式训练。实验表明,在基于视觉的环境中,该方法的表现可与使用真实符号接地的方法相媲美,并显著优于当前最先进的子符号环境方法。
AI 推荐理由
论文聚焦于强化学习代理在非符号环境中对线性时序逻辑任务的零样本泛化,涉及推理与逻辑表达。
论文信息