推理能力 深度思考标记 推理优化 生成质量评估
摘要

大型语言模型(LLMs)通过扩展推理时的计算量以实现长链思维(CoT)展现出卓越的推理能力。然而,近期研究表明,原始的token数量并不能可靠地反映推理质量:生成长度增加并不总是与准确性相关,反而可能表明“过度思考”,导致性能下降。在本研究中,我们通过识别深度思考标记(即在模型深层收敛前内部预测发生显著修订的标记)来量化推理时的努力。在四个具有挑战性的数学和科学基准测试(AIME 24/25、HMMT 25 和 GPQA-diamond)以及多种专注于推理的模型(GPT-OSS、DeepSeek-R1 和 Qwen3)上,我们发现深度思考比例(生成序列中深度思考标记的比例)与准确性之间存在稳健且一致的正相关关系,显著优于基于长度和置信度的基线方法。利用这一洞察,我们引入了Think@n策略,该策略优先处理深度思考比例高的样本,并通过基于短前缀提前拒绝无前途生成,显著降低了推理成本。

AI 推荐理由

论文聚焦于LLM的推理能力,提出衡量推理努力的新指标并验证其有效性。

论文信息
作者 Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen et al.
发布日期 2026-02-13
arXiv ID 2602.13517
相关性评分 10/10 (高度相关)