摘要
检索增强生成(RAG)在长篇学术论文的问答任务中应用日益广泛,其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构块,破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行,导致上下文碎片化、token被错误分配到非证据区域,并增加下游语言模型的推理负担。为解决这些问题,本文提出PT-RAG,一种基于学术论文原生层次结构作为低熵检索先验的RAG框架。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引,防止源端熵增加;然后设计路径引导检索机制,在固定token预算下对齐查询语义并选择高相关性的根到叶路径,从而获得紧凑、连贯且低熵的检索上下文。与现有RAG方法相比,PT-RAG避免了破坏性预处理引起的熵增加,并为后续检索提供原生低熵结构基础。为评估该设计,本文引入基于熵的结构诊断方法,量化检索碎片化和证据分配准确性。在三个学术问答基准测试中,PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线,表明其减少了上下文碎片化并更精确地分配到证据区域。这些结构优势直接提升了答案质量。
AI 推荐理由
论文聚焦于提升LLM在学术问答中的推理能力,通过结构保真检索增强生成减少上下文碎片化。
论文信息