摘要
协作多智能体强化学习(MARL)通常采用集中训练与分散执行的框架,其中价值分解方法强制执行个体全局最大(IGM)原则,使分散的贪心动作恢复团队最优联合动作。然而,在现实环境中,由于仿真到现实的差距、模型不匹配和系统噪声等因素,该方法的可靠性存在问题。本文引入分布鲁棒IGM(DrIGM)原则,要求每个智能体的鲁棒贪心动作与其团队最优联合动作对齐。我们证明了DrIGM适用于一种新的鲁棒个体动作值定义,并且兼容分散贪心执行,为整个系统提供可证明的鲁棒性保证。在此基础上,我们推导出符合DrIGM原则的现有价值分解架构(如VDN/QMIX/QTRAN)的鲁棒变体,这些变体(i)基于鲁棒Q目标进行训练,(ii)保持可扩展性,(iii)能够无缝集成到现有代码库中,无需针对每个智能体进行奖励塑造。实验表明,在高保真SustainGym模拟器和StarCraft游戏环境中,我们的方法显著提升了分布外性能。
AI 推荐理由
论文聚焦于多智能体协作中的任务规划与决策机制,提出鲁棒价值分解方法以提升系统在不确定环境下的性能。
论文信息