面向推理的协作式多智能体测试时强化学习

多智能体系统测试时学习经验重用大语言模型

摘要

多智能体系统已发展为由大语言模型驱动的实用协作者，在多样性与交叉验证中提升鲁棒性。然而，多智能体强化学习（MARL）训练成本高且不稳定：协同适应导致环境非平稳，奖励信号稀疏且方差大。为此，本文提出多智能体测试时强化学习（MATTRL）框架，在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论，检索并整合测试时经验，最终达成共识决策。研究还探讨了轮次级信用分配机制，用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上，MATTRL相较多智能体基线平均提升准确率3.67%，相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。

AI 推荐理由

论文涉及在推理时注入结构化经验，属于记忆机制的应用，但非核心记忆架构研究。

论文信息

作者 Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.

发布日期 2026-01-14

arXiv ID 2601.09667