摘要
多智能体系统(MAS)可以显著扩展大语言模型(LLMs)的推理能力,但大多数框架仍使用多数投票来聚合智能体输出。这种启发式方法忽略了推理轨迹中的证据结构,并在智能体共享相关偏见并收敛于相同错误理由的“虚构共识”情况下表现脆弱。本文引入了AgentAuditor,通过在显式表示智能体轨迹之间一致性和分歧的推理树上进行路径搜索,取代传统的投票机制。AgentAuditor通过比较关键分歧点的推理分支解决冲突,将全局裁决转化为高效的局部验证。此外,本文还提出了反共识偏好优化(ACPO),通过对多数失败案例训练裁决者,并奖励基于证据的少数选择而非流行错误,进一步提升效果。AgentAuditor与MAS设置无关,在5种主流设置中,其准确率比多数投票提高了高达5%,比使用LLM作为裁判提高了3%。
AI 推荐理由
论文聚焦于多智能体系统的推理过程,提出改进推理结果的方法,直接关联推理能力主题。
论文信息