语言模型对齐 协同进化 动态对手选择 课程学习
摘要

当前大型语言模型(LLMs)的对齐方法依赖于将大量人类偏好数据压缩为静态的绝对奖励函数,导致数据稀缺、噪声敏感和训练不稳定。本文提出Elo-Evolve,一种协同进化框架,将对齐重新定义为在自适应对手池中的动态多智能体竞争。该方法有两个关键创新点:(1)通过直接从成对竞争中的二元胜负结果中学习,消除Bradley-Terry模型的依赖;(2)采用Elo协调的对手选择机制,通过温度控制采样实现自动课程学习。本文基于PAC学习理论,证明成对比较在样本复杂度上优于绝对评分方法,并通过实验验证其相比绝对评分方法具有4.5倍的噪声降低效果。实验中使用Qwen2.5-7B模型进行训练,对手包括Qwen2.5-14B、Qwen2.5-32B和Qwen3-8B模型,结果显示Elo-Evolve在Alpaca Eval 2.0和MT-Bench基准测试中表现优于其他方法,验证了成对比较和动态对手选择在LLM对齐中的渐进优势。

AI 推荐理由

论文提出了一种基于动态多智能体竞争的框架,强调模型通过与不同对手的交互实现自我进化和对齐。

论文信息
作者 Jing Zhao, Ting Zhen, Junwei bao, Hongfei Jiang, Yang song
发布日期 2026-02-14
arXiv ID 2602.13575
相关性评分 9/10 (高度相关)