摘要
从智能体的行为中理解其目标是使AI系统与人类意图对齐的基础。现有目标识别方法通常依赖于最优目标导向策略表示,这可能与执行者的真实行为存在差异,从而阻碍准确识别其目标。为解决这一问题,本文提出基于模仿学习的目标识别对齐方法(GRAIL),该方法利用模仿学习和逆强化学习,直接从(可能是次优的)演示轨迹中学习每个候选目标对应的一个目标导向策略。通过在单次前向传递中使用每个学习到的目标导向策略对观察到的部分轨迹进行评分,GRAIL保留了经典目标识别方法的一次性推理能力,同时利用能够捕捉次优和系统性偏差行为的学习策略。在评估的多个领域中,GRAIL在系统性偏差最优行为下F1分数提升超过0.5,在次优行为下获得约0.1-0.3的增益,在噪声最优轨迹下实现高达0.4的改进,并在完全最优设置中仍具有竞争力。这项工作为在不确定环境中解释智能体目标提供了可扩展且鲁棒的模型。
AI 推荐理由
论文聚焦于通过模仿学习识别智能体目标,涉及推理与行为对齐,属于推理能力的核心研究。
论文信息