科学推理 自然语言推理 模型评估 回避机制 不确定性处理
摘要

大型语言模型越来越多地用于回答和验证科学声明,但现有评估通常假设模型必须始终给出明确答案。然而,在科学场景中,缺乏支持或不确定的结论可能比回避更有害。本文通过一个具有回避意识的验证框架研究这一问题,该框架将科学声明分解为最小条件,并使用自然语言推理(NLI)对每个条件进行审计,从而选择性地决定支持、反驳或回避。我们在两个互补的科学基准数据集SciFact和PubMedQA上评估了该框架,涵盖封闭式和开放式证据设置。实验使用了六种不同的语言模型,包括编码器-解码器模型、开源聊天模型和专有API。结果表明,不同架构的原始准确性差异不大,而回避在控制错误方面起着关键作用。特别是基于置信度的回避显著降低了风险,即使绝对准确性提升有限。我们的研究指出,在科学推理任务中,主要挑战不是选择最佳模型,而是确定现有证据是否足以支持答案。这项工作强调了具有回避意识的评估作为评估科学可靠性的实用且模型无关的视角,并为未来科学领域选择性推理的研究提供了统一的实验基础。

AI 推荐理由

论文聚焦于科学推理中的选择性回答机制,涉及模型在不确定时的自我判断与回避,属于推理能力的核心研究。

论文信息
作者 Samir Abdaljalil, Erchin Serpedin, Hasan Kurban
发布日期 2026-02-15
arXiv ID 2602.14189
相关性评分 9/10 (高度相关)