多智能体强化学习 价值分解 动态适应 探索策略
摘要

价值分解是合作型多智能体强化学习(MARL)的核心方法。然而,现有方法仍依赖单一最优动作,在训练过程中当底层价值函数发生变化时难以适应,通常会收敛到次优策略。为解决这一限制,我们提出了连续子价值Q学习(S2Q),该方法通过学习多个子价值函数来保留替代的高价值动作。将这些子价值函数纳入基于Softmax的行为策略中,S2Q能够促进持续探索,并使$Q^{ ext{tot}}$快速适应变化的最优解。在具有挑战性的MARL基准测试中的实验表明,S2Q始终优于各种MARL算法,展示了其改进的适应性和整体性能。我们的代码可在https://github.com/hyeon1996/S2Q获取。

AI 推荐理由

论文关注多智能体强化学习中的适应性策略,与规划能力中的目标导向行为和动态调整相关。

论文信息
作者 Yonghyeon Jo, Sunwoo Lee, Seungyul Han
发布日期 2026-02-19
arXiv ID 2602.17062
相关性评分 7/10 (相关)