摘要
尽管最先进的大型语言模型(LLMs)能够解决数学问题,但我们发现它们在混合符号的数值比较中会出现错误,例如“5.7×10²和580哪个更大?”这引发了一个根本性问题:LLMs是否真正理解这些数字的大小?我们对多个较小的开源LLMs的隐藏状态进行了探测。适当隐藏层的一个线性投影可以编码两种数字的对数幅度,使我们能够在受限合成文本上以约2.3%的相对误差恢复数字,在科学论文中则为19.06%。此外,读取一对数字后的隐藏状态编码了它们的排名,线性分类器可实现超过90%的准确率。然而,当被明确要求对同一组数字进行排序时,这些LLMs仅达到50-70%的准确率,且探针效果较差的模型表现更差。最后,我们证明在微调过程中将分类器探针的对数损失作为辅助目标,可使模型的口头准确率提高3.22%,表明改进模型的内部数量表示可以增强其数值推理能力。
AI 推荐理由
论文聚焦于LLM在数值推理中的表现与内部表示,直接涉及推理能力的核心问题。
论文信息