摘要
多智能体系统中的个体智能体常因盲目顺从而缺乏鲁棒性。本文指出该问题源于谄媚倾向及对同伴可靠性评估能力不足。为此,作者形式化了“历史感知引用”学习问题,将同伴的历史交互作为额外输入,使智能体能在不确定时依据可信同伴进行学习。该方法将任务从评估同伴推理质量转变为基于交互历史估计其可靠性。作者提出认知上下文学习(ECL)框架,通过显式构建同伴历史档案来调节预测,并结合强化学习与辅助奖励进行优化。实验表明,ECL使Qwen 3-4B小模型性能超越无历史感知的8倍大模型(Qwen 3-30B),并使前沿模型达到近100%准确率,且在多种多智能体配置中具有良好泛化能力。
AI 推荐理由
利用历史交互构建记忆以评估同伴可靠性,属记忆关键应用。
论文信息