多智能体系统 测试时学习 经验重用 大语言模型
摘要

多智能体系统已发展为由大语言模型驱动的实用协作者,在多样性与交叉验证中提升鲁棒性。然而,多智能体强化学习(MARL)训练成本高且不稳定:协同适应导致环境非平稳,奖励信号稀疏且方差大。为此,本文提出多智能体测试时强化学习(MATTRL)框架,在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论,检索并整合测试时经验,最终达成共识决策。研究还探讨了轮次级信用分配机制,用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上,MATTRL相较多智能体基线平均提升准确率3.67%,相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。

AI 推荐理由

论文涉及在推理时注入结构化经验,属于记忆机制的应用,但非核心记忆架构研究。

论文信息
作者 Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.
发布日期 2026-01-14
arXiv ID 2601.09667
相关性评分 6/10 (相关)