factuality recall knowledge encoding LLM benchmarking
摘要

标准的事实性评估将所有错误视为相同,掩盖了失败是源于知识缺失(空货架)还是无法访问已编码事实(丢失的钥匙)。本文提出一种行为框架,从事实层面而非问题层面分析事实知识,通过是否编码以及可访问性(无法回忆、可直接回忆或需推理计算回忆)进行分类。为此,作者引入WikiProfile基准,通过基于网络搜索的自动流程构建。在13个LLM的400万次响应中发现,前沿模型在该基准上几乎完全编码了事实,但回忆仍是主要瓶颈:许多原本归因于知识缺失的错误实际上源于无法访问已有知识。这些失败具有系统性,尤其影响长尾事实和反向问题。最后,研究显示推理可以提升回忆并恢复大量错误,表明未来进展可能更依赖于优化模型利用已有编码知识的方法,而非单纯扩大规模。

AI 推荐理由

论文聚焦于LLM对事实的编码与回忆机制,明确指出记忆访问(recall)是影响事实准确性的关键瓶颈。

论文信息
作者 Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
发布日期 2026-02-15
arXiv ID 2602.14080
相关性评分 9/10 (高度相关)