摘要
测试时扩展可以通过聚合随机推理轨迹来提升模型性能。然而,在有限预算下实现样本高效的测试时自一致性仍是一个开放性挑战。本文提出PETS(Principled and Efficient Test-Time Self-Consistency),通过优化框架对轨迹分配进行系统研究。核心是自一致性率,定义为与无限预算多数投票的一致性。该方法在离线和在线场景中均表现出色,实验表明PETS在GPQA数据集上实现了完美的自一致性,并显著减少了采样预算。
AI 推荐理由
论文聚焦于提升模型推理一致性,通过轨迹分配优化测试时的推理过程,属于推理能力的核心研究。
论文信息