摘要
将大型语言模型(LLMs)与外部工具通过多智能体系统集成,为分解和解决复杂问题提供了一种有前景的新范式。然而,由于信用分配问题,训练这些系统仍然非常困难,因为通常难以确定哪个具体功能代理负责决策轨迹的成功或失败。现有方法通常依赖稀疏或全局广播的奖励,无法捕捉个体贡献,导致强化学习效率低下。为了解决这些限制,我们引入了基于Shapley的分层归因强化策略(SHARP),一种通过精确信用分配优化多智能体强化学习的新框架。SHARP主要通过分解奖励机制,包括全局广播准确性奖励、每个代理的基于Shapley的边际信用奖励以及工具过程奖励,从而有效稳定训练并提高执行效率。在多个现实世界基准测试中进行的广泛实验表明,SHARP显著优于最近的最先进基线,在单智能体和多智能体方法上分别实现了23.66%和14.05%的平均匹配改进。
AI 推荐理由
论文聚焦于多智能体系统中的奖励分配与训练优化,涉及任务分解和目标导向行为的规划机制。
论文信息