多智能体强化学习 动态协调 异步决策 行为多样性
摘要

多智能体强化学习(MARL)为协调多智能体系统(MAS)提供了一个有前景的范式。然而,现有方法通常依赖于限制性假设,如固定数量的智能体和完全同步的动作执行。这些假设在城市系统中经常被违反,因为活跃智能体的数量随时间变化,动作可能具有异构持续时间,从而形成半MARL设置。此外,尽管共享策略参数可以提高学习效率,但可能导致部分智能体在相似观察下同时决策时产生高度同质化的动作,从而降低协调质量。为了解决这些问题,我们提出了自适应价值分解(AVD),一种能够适应动态变化智能体群体的协作MARL框架。AVD进一步引入了一种轻量级机制,以缓解由共享策略引起的动作同质化问题,从而鼓励行为多样性并保持智能体之间的有效合作。此外,我们设计了一种针对半MARL环境的训练-执行策略,以适应不同时间点进行决策的异步行为。在伦敦和华盛顿特区两个主要城市的实际共享单车再分配任务中的实验表明,AVD优于最先进的基线方法,证明了其有效性和通用性。

AI 推荐理由

论文聚焦于多智能体系统的协调与规划,提出适应动态变化的框架以提升协作效率。

论文信息
作者 Yexin Li, Jinjin Guo, Haoyu Zhang, Yuhan Zhao, Yiwen Sun et al.
发布日期 2026-02-10
arXiv ID 2602.13309
相关性评分 8/10 (高度相关)