LLM何时应更不具体？用于可靠长文本生成的选择性抽象

不确定性估计事实准确性长文本生成选择性抽象推理可靠性

摘要

尽管大语言模型（LLMs）被广泛应用，但其在事实性错误方面仍存在问题，影响用户信任和高风险场景的采用。一种缓解方法是为模型配备不确定性估计机制，在置信度低时进行回避。然而，这种二元“全有或全无”的方法在长文本生成中过于严格，常导致有价值信息的丢失。本文提出选择性抽象（Selective Abstraction, SA）框架，使LLMs能够在不确定内容上通过选择性减少细节来换取可靠性。首先，我们从选择性风险和覆盖率的角度形式化SA；然后提出原子级选择性抽象，将响应分解为表达单一事实的原子声明，并用更高置信度、更少细节的抽象替换不确定的原子。为了评估该框架，我们开发了一个端到端的开放生成流水线，将风险定义为事实正确性，并使用信息论指标衡量覆盖率。在FactScore和LongFact-Objects基准上的六种开源模型实验表明，原子级SA显著优于现有基线，将风险-覆盖率曲线下的面积（AURC）提升了高达27.73%，证明减少具体性可以提高准确性和可靠性，同时保留大部分原始含义。

AI 推荐理由

论文聚焦于LLM在长文本生成中的推理可靠性，通过选择性抽象提升事实准确性，属于推理能力的核心研究。

论文信息

作者 Shani Goren, Ido Galil, Ran El-Yaniv

发布日期 2026-02-12

arXiv ID 2602.11908