强化学习 多智能体系统 社交智能 自我博弈
摘要

本文介绍了OMAR(One Model, All Roles)框架,该框架通过多轮、多智能体对话的自我博弈,使AI能够发展出社交智能。与传统依赖静态单轮优化的方法不同,OMAR允许单一模型同时扮演对话中的所有参与者,直接从动态社交互动中学习长期目标和复杂社会规范。为确保长对话中的训练稳定性,我们实现了分层优势估计方法,分别计算回合级和词级优势。在SOTOPIA社交环境和狼人杀策略游戏中评估表明,训练后的模型展现出细致的、涌现的社交智能,如共情、说服和寻求妥协等,展示了即使在竞争场景下协作学习的有效性。尽管我们识别了诸如奖励黑客等实际挑战,但结果表明,无需人工监督即可产生丰富的社交智能。希望本研究能激励进一步探索群体对话中AI社交智能的相关研究。

AI 推荐理由

论文涉及多智能体对话中的长期目标学习,与记忆机制相关但非核心主题。

论文信息
作者 Bowen Jiang, Taiwei Shi, Ryo Kamoi, Yuan Yuan, Camillo J. Taylor et al.
发布日期 2026-02-03
arXiv ID 2602.03109
相关性评分 6/10 (相关)