推理能力 思维链 资源约束 模型比较 代码推理
摘要

专门用于推理的模型如OpenAI的5.1版和DeepSeek-V3.2分配大量计算资源用于扩展的思维链(CoT)推理,但推理标记会带来显著成本。在标记数量受限的情况下,不同推理模式(代码、自然语言、混合或无)的表现如何?本文引入了一个框架,限制模型仅通过代码、注释、两者或都不进行推理,并系统性地将标记预算减少到最优值的10%、30%、50%和70%。我们在数学基准测试(AIME、GSM8K、HMMT)上评估了四个前沿模型(GPT-5.1、Gemini 3 Flash、DeepSeek-V3.2、Grok 4.1)。研究发现:(1)截断推理可能有害,DeepSeek-V3.2在无推理时达到53%,但在50%预算下使用截断CoT时仅为17%;(2)代码表现更为稳健,Gemini的注释在预算减少时完全失效,而代码仍保持43-47%;(3)混合推理表现不如单一模态;(4)鲁棒性依赖于模型,Grok在30%预算下仍保持80-90%,而OpenAI和DeepSeek则下降至7-27%。这些结果表明,不完整的推理链会主动误导模型,这对资源受限环境下部署专用推理系统具有重要意义。

AI 推荐理由

论文核心研究LLM的推理能力,探讨不同推理模式在资源受限下的表现。

论文信息
作者 Ian Su, Gaurav Purushothaman, Jey Narayan, Ruhika Goel, Kevin Zhu et al.
发布日期 2026-02-16
arXiv ID 2602.14444
相关性评分 10/10 (高度相关)