摘要
多智能体系统已发展为由大语言模型驱动的实用协作者,在多样性与交叉验证中提升鲁棒性。然而,多智能体强化学习(MARL)训练成本高且不稳定:协同适应导致环境非平稳,奖励信号稀疏且方差大。为此,本文提出多智能体测试时强化学习(MATTRL)框架,在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论,检索并整合测试时经验,最终达成共识决策。研究还探讨了轮次级信用分配机制,用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上,MATTRL相较多智能体基线平均提升准确率3.67%,相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。
AI 推荐理由
论文涉及在推理时注入结构化经验,属于记忆机制的应用,但非核心记忆架构研究。
论文信息