self-consistency trajectory allocation test-time scaling reasoning optimization
摘要

测试时扩展可以通过聚合随机推理轨迹来提升模型性能。然而,在有限预算下实现样本高效的测试时自一致性仍是一个开放性挑战。本文提出PETS(Principled and Efficient Test-Time Self-Consistency),通过优化框架对轨迹分配进行系统研究。核心是自一致性率,定义为与无限预算多数投票的一致性。该方法在离线和在线场景中均表现出色,实验表明PETS在GPQA数据集上实现了完美的自一致性,并显著减少了采样预算。

AI 推荐理由

论文聚焦于提升模型推理一致性,通过轨迹分配优化测试时的推理过程,属于推理能力的核心研究。

论文信息
作者 Zhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han et al.
发布日期 2026-02-18
arXiv ID 2602.16745
相关性评分 9/10 (高度相关)