fact-checking context-length evidence-placement LLM-reasoning
摘要

大型语言模型(LLMs)在各种任务中表现出强大的推理能力,但其在扩展上下文中的表现仍不一致。尽管先前的研究强调了问答任务中中段上下文退化现象,本研究则探讨了基于LLM的事实核查中上下文的影响。使用三个数据集(HOVER、FEVEROUS和ClimateFEVER)以及五个不同参数规模(7B、32B和70B)和模型家族(Llama-3.1、Qwen2.5和Qwen3)的开源模型,评估了参数化事实知识及证据位置对不同上下文长度的影响。我们发现,LLMs展现出非平凡的参数化事实知识,并且随着上下文长度增加,其验证准确性通常下降。与之前的研究结果类似,上下文中相关证据的位置起着关键作用,当相关证据出现在提示的开头或结尾时,准确性较高,而位于中间时则较低。这些结果突显了提示结构在检索增强型事实核查系统中的重要性。

AI 推荐理由

论文研究了上下文对LLM事实核查效果的影响,涉及推理能力中的逻辑与事实验证。

论文信息
作者 Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini
发布日期 2026-02-15
arXiv ID 2602.14044
相关性评分 8/10 (高度相关)