强化学习 任务规划 LTL 零样本学习 注意力机制
摘要

本文研究了多任务强化学习中的指令遵循问题,其中智能体需要在训练中未见过的新任务上实现零样本执行。线性时序逻辑(LTL)已被作为描述结构化、时间扩展任务的强大框架引入。尽管现有方法能够训练通用策略,但往往难以有效捕捉LTL规范中固有的丰富逻辑和时间结构。为此,本文提出了一种新颖的方法来学习结构化任务表示,以促进训练和泛化能力。该方法将策略条件化为从任务有限自动机构建的布尔公式序列,并提出了一种分层神经网络架构来编码这些公式的逻辑结构,同时引入注意力机制使策略能够推理未来的子目标。实验表明,该方法在多种复杂环境中表现出强大的泛化能力和优越性能。

AI 推荐理由

论文聚焦于基于结构化LTL表示的零样本任务执行,涉及任务规划与未来子目标推理。

论文信息
作者 Mathias Jackermeier, Mattia Giuri, Jacques Cloete, Alessandro Abate
发布日期 2026-02-15
arXiv ID 2602.14344
相关性评分 8/10 (高度相关)