推理优化 置信度引导 自修正机制 计算效率 LLM推理
摘要

大型语言模型(LLMs)通常依赖于测试时的并行解码(例如512个样本)来提高推理准确性,但这会带来巨大的计算开销。本文提出CoRefine,一种基于置信度引导的自修正方法,通过在冻结的LLM之上使用轻量级的Conv1D控制器(参数量为211k),仅使用少量token即可达到与基线相当的精度。该控制器利用完整的置信度轨迹决定是否停止、重新审视或尝试不同方法,实现每道题平均2.7次修正步骤,并相对于512样本基线减少约190倍的token数量。在多个推理基准和三个开源模型上,控制器在自信停止时达到92.6%的精度,表明置信度动态可以可靠地指示正确性而无需真实标签验证。此外,作者扩展了CoRefine-Tree,一种混合顺序-并行变体,能够自适应平衡探索与利用,具备易于服务集成和验证器兼容性。通过将置信度视为控制信号而非正确性保证,CoRefine为可扩展推理和具有不完美验证器的智能体环境提供了一个模块化基础。

AI 推荐理由

论文聚焦于提升LLM推理准确性的方法,核心是通过置信度引导的自修正机制优化推理过程。

论文信息
作者 Chen Jin, Ryutaro Tanno, Tom Diethe, Philip Teare
发布日期 2026-02-09
arXiv ID 2602.08948
相关性评分 9/10 (高度相关)