multi-agent LLM reinforcement learning training stability math reasoning tool use
摘要

多智能体LLM系统通过角色专业化实现了高级推理和工具使用,但可靠的强化学习(RL)后训练仍具有挑战性。本文从理论上指出了在将基于群体的RL扩展到多智能体LLM系统时训练不稳定的关键原因。研究表明,在GRPO风格优化下,全局归一化基线可能偏离不同智能体的奖励分布,最终导致梯度范数不稳定。基于此发现,我们提出了Dr. MAS,一种简单且稳定的多智能体LLM系统RL训练方案。Dr. MAS采用逐智能体的解决方案:利用每个智能体自身的奖励统计信息对优势进行归一化,从而校准梯度尺度并显著稳定训练。此外,Dr. MAS还提供了一个端到端的RL训练框架,支持可扩展的调度、灵活的每智能体LLM服务与优化配置以及共享资源调度。我们在多智能体数学推理和多轮搜索基准上评估了Dr. MAS,使用Qwen2.5和Qwen3系列模型,结果显示Dr. MAS在多个指标上均优于基础GRPO方法,并有效消除了梯度尖峰。

AI 推荐理由

论文聚焦于多智能体LLM系统的强化学习训练,旨在提升其推理与工具使用能力,属于推理能力的核心研究。

论文信息
作者 Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
发布日期 2026-02-09
arXiv ID 2602.08847
相关性评分 9/10 (高度相关)