self-evolution safety alignment multi-agent systems information theory
摘要

基于大语言模型的多智能体系统为可扩展的集体智能和自进化提供了有前景的范式。理想情况下,这类系统能够在完全闭环中实现持续的自我改进,同时保持强大的安全对齐——我们称之为自进化的三难困境。然而,本文从理论和实证两方面证明,满足持续自进化、完全隔离和安全性不变的智能体社会是不可能的。通过信息论框架,我们将安全性形式化为与人类价值观分布的偏离程度。理论上证明,孤立的自进化会导致统计盲区,从而不可逆地降低系统的安全性对齐。通过对开放式的智能体社区(Moltbook)以及两个封闭自进化系统的实证和定性研究,揭示了与理论预测一致的安全性退化现象。我们进一步提出了一些缓解该安全问题的解决方案方向。本研究确立了自进化AI社会的根本限制,并将讨论从症状驱动的安全补丁转向对内在动态风险的原则性理解,突出了外部监督或新型安全机制的必要性。

AI 推荐理由

论文聚焦于自进化AI社会的安全性问题,直接涉及自我进化机制及其内在风险。

论文信息
作者 Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou et al.
发布日期 2026-02-10
arXiv ID 2602.09877
相关性评分 9/10 (高度相关)