摘要
奖励模型是通过强化学习将语言模型与人类偏好对齐的核心。随着RL应用于可验证奖励和多目标对齐等场景,奖励模型需要编码更复杂和多维的偏好分布。然而,传统的分类奖励模型一旦训练完成即保持静态,限制了其在测试时的适应能力。本文提出了一种新的贝叶斯奖励建模目标——变分上下文奖励建模(ICRM),通过上下文偏好示例实现测试时的可控性。ICRM将奖励建模视为基于Bradley-Terry模型下的潜在偏好概率的变分推断,并使用共轭Beta先验。实验表明,ICRM在单目标和多目标设置中均能适应未见过的偏好分布,在SafeRLHF数据集上准确率提升34%,在RM-Bench上提升9%。此外,ICRM在帮助性和拒绝基准上扩展了帕累托前沿。研究还表明,ICRM在数学推理任务中优于传统奖励模型,并提供了理论保证:变分目标具有有限置信度下的全局内部最优解,同时分析了KL正则化如何缓解奖励过度优化问题。
AI 推荐理由
论文聚焦于奖励模型的可调整性,强调推理能力在多目标对齐和数学推理中的应用。
论文信息