摘要
多智能体强化学习(MARL)在不完全信息博弈中的进展很大程度上依赖于对基线的逐步手动优化。尽管反事实遗憾最小化(CFR)和策略空间响应预言机(PSRO)等基础方法具有坚实的理论基础,但其最优变体的设计通常依赖人类直觉来探索庞大的算法设计空间。本文提出使用AlphaEvolve,一种由大语言模型驱动的进化编码代理,以自动发现新的多智能体学习算法。通过在两个不同的博弈论学习范式中演化新变体,展示了该框架的通用性。首先,在迭代遗憾最小化领域,演化出新的VAD-CFR算法;其次,在基于种群的训练算法中,演化出SHOR-PSRO算法,均表现出优于现有方法的性能。
AI 推荐理由
论文核心研究了基于LLM的进化算法自动发现多智能体学习算法,直接涉及自我进化机制。
论文信息