摘要
近期大语言模型(LLM)的进步显著提升了协作式多智能体系统处理复杂任务的能力。然而,这些系统中智能体对集体认知偏差的易感性仍缺乏深入研究,典型如曼德拉效应——群体因社会影响和内化错误信息而共同错误记忆过往事件。本文系统研究了LLM多智能体系统中的曼德拉效应,探究其存在性、成因及缓解策略。我们提出MANBENCH基准,涵盖四类易受该效应影响的任务和五种不同角色与记忆时间尺度的交互协议,并在多个LLM驱动的智能体上进行评估。此外,提出提示层防御(如认知锚定、信源审查)和模型层对齐防御策略,相较基线平均降低74.40%的曼德拉效应。本研究为构建更具鲁棒性与伦理一致性的协作多智能体系统提供了重要洞见。
AI 推荐理由
聚焦多智能体系统中的集体记忆偏差,核心探讨记忆机制与失真问题。
论文信息