多跳推理 量化陷阱 计算效率 能耗分析 推理能力
摘要

神经网络的扩展定律为AI进步提供了一种可预测的方案:降低数值精度应能线性提升计算效率和能耗表现(E与位数成正比)。本文证明,在多跳推理的背景下,这一扩展定律失效。我们揭示了一个‘量化陷阱’,即从16位精度降至8/4位时,反而会增加净能耗并降低推理准确性。我们通过严格的理论分析指出,这种失败源于硬件转换开销以及反量化内核的隐藏延迟成本,这些因素在顺序推理链中成为主要瓶颈,还涉及顺序能量摊销失败。因此,扩展定律的失效在实践中是不可避免的。我们的研究结果表明,行业普遍采用的‘越小越好’启发式方法,对于复杂推理任务而言在数学上是低效的。

AI 推荐理由

论文聚焦于多跳推理中的量化陷阱,直接涉及LLM的推理能力与效率问题。

论文信息
作者 Henry Han, Xiyang Liu, Xiaodong Wang, Fei Han, Xiaodong Li
发布日期 2026-02-14
arXiv ID 2602.13595
相关性评分 9/10 (高度相关)