多智能体系统 强化学习 信用分配 任务规划 SHARP
摘要

将大型语言模型(LLMs)与外部工具通过多智能体系统集成,为分解和解决复杂问题提供了一种有前景的新范式。然而,由于信用分配问题,训练这些系统仍然非常困难,因为通常难以确定哪个具体功能代理负责决策轨迹的成功或失败。现有方法通常依赖稀疏或全局广播的奖励,无法捕捉个体贡献,导致强化学习效率低下。为了解决这些限制,我们引入了基于Shapley的分层归因强化策略(SHARP),一种通过精确信用分配优化多智能体强化学习的新框架。SHARP主要通过分解奖励机制,包括全局广播准确性奖励、每个代理的基于Shapley的边际信用奖励以及工具过程奖励,从而有效稳定训练并提高执行效率。在多个现实世界基准测试中进行的广泛实验表明,SHARP显著优于最近的最先进基线,在单智能体和多智能体方法上分别实现了23.66%和14.05%的平均匹配改进。

AI 推荐理由

论文聚焦于多智能体系统中的奖励分配与训练优化,涉及任务分解和目标导向行为的规划机制。

论文信息
作者 Yanming Li, Xuelin Zhang, WenJie Lu, Ziye Tang, Maodong Wu et al.
发布日期 2026-02-09
arXiv ID 2602.08335
相关性评分 8/10 (高度相关)