推理效率 令牌使用分析 模型评估 推理追踪
摘要

训练用于推理的大语言模型在推理令牌使用和准确性之间存在权衡,但标准评估仅报告最终准确性,掩盖了令牌的使用或浪费情况。本文提出了一种可选追踪框架,将令牌效率分解为可解释的因素:在固定令牌预算下的完成度(避免截断)、完成条件下的正确性以及冗长性(令牌使用)。当基准元数据提供每个实例的工作负载代理时,进一步将冗长性分解为两个部分:平均表述开销(每工作单元的令牌数)和一个耦合系数,该系数捕捉开销如何随任务工作量变化。当有推理追踪时,还加入了确定性的追踪质量指标(如基础性、重复性、提示复制),以区分退化的循环推理与冗长但参与的推理,避免人工标注和LLM评判。在CogniLoad上对25个模型进行评估,发现准确性和令牌效率排名存在分歧(Spearman $ρ=0.63$),效率差距通常由条件正确性驱动,而表述开销因任务不同而变化约9倍(与模型规模关系较弱)。该分解揭示了不同的瓶颈特征,表明需要不同的效率干预措施。

AI 推荐理由

论文聚焦于LLM的推理效率分解,直接涉及推理能力的核心机制与评估。

论文信息
作者 Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud
发布日期 2026-02-10
arXiv ID 2602.09805
相关性评分 9/10 (高度相关)