不确定性估计 事实准确性 长文本生成 选择性抽象 推理可靠性
摘要

尽管大语言模型(LLMs)被广泛应用,但其在事实性错误方面仍存在问题,影响用户信任和高风险场景的采用。一种缓解方法是为模型配备不确定性估计机制,在置信度低时进行回避。然而,这种二元“全有或全无”的方法在长文本生成中过于严格,常导致有价值信息的丢失。本文提出选择性抽象(Selective Abstraction, SA)框架,使LLMs能够在不确定内容上通过选择性减少细节来换取可靠性。首先,我们从选择性风险和覆盖率的角度形式化SA;然后提出原子级选择性抽象,将响应分解为表达单一事实的原子声明,并用更高置信度、更少细节的抽象替换不确定的原子。为了评估该框架,我们开发了一个端到端的开放生成流水线,将风险定义为事实正确性,并使用信息论指标衡量覆盖率。在FactScore和LongFact-Objects基准上的六种开源模型实验表明,原子级SA显著优于现有基线,将风险-覆盖率曲线下的面积(AURC)提升了高达27.73%,证明减少具体性可以提高准确性和可靠性,同时保留大部分原始含义。

AI 推荐理由

论文聚焦于LLM在长文本生成中的推理可靠性,通过选择性抽象提升事实准确性,属于推理能力的核心研究。

论文信息
作者 Shani Goren, Ido Galil, Ran El-Yaniv
发布日期 2026-02-12
arXiv ID 2602.11908
相关性评分 9/10 (高度相关)