摘要
强化学习(RL)已成为训练或微调大型语言模型(LLMs)的关键方法,通过交互式反馈实现自适应、任务特定的优化。多智能体强化学习(MARL)通过将复杂任务分解为由不同交互智能体学习的专门子任务,提供了有前景的途径,可能提升LLM系统的性能和效率。然而,关于MARL何时以及为何优于单智能体RL(SARL)的理论见解仍有限,这使得选择适当的RL框架存在不确定性。本文通过严格分析MARL和SARL在LLM中的样本效率对比,填补了这一关键空白。利用Probably Approximately Correct(PAC)框架,我们正式定义了LLM的SARL和MARL设置,推导出明确的样本复杂度界限,并系统地刻画了任务分解和对齐如何影响学习效率。结果表明,当任务自然分解为独立子任务时,MARL能提高样本效率,而依赖性子任务则削弱其优势。此外,我们引入并分析了任务对齐的概念,量化了在强制独立任务分解时可能出现的对齐偏差的权衡。这些理论见解澄清了经验上的不一致,并为在复杂LLM场景中有效部署MARL策略提供了实用标准。
AI 推荐理由
论文重点分析了多智能体系统在任务分解和对齐方面的学习效率,与规划能力密切相关。
论文信息