检索增强生成 不确定性评分 实体嵌入 文档增强 RAG系统优化
摘要

可靠的检索增强生成(RAG)系统依赖于检索器找到相关信息的能力。本文表明,用于RAG系统的神经检索器存在盲点,即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致这些盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分(RPS),我们展示了标准检索器(如CONTRIEVER、REASONIR)的盲点风险可在索引前通过实体嵌入几何预测,从而避免昂贵的检索评估。为解决这些盲点,我们引入ARGUS,一个通过知识库(KB)和维基百科首段进行定向文档增强以提高高风险(低RPS)实体可检索性的流程。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明,ARGUS在所有评估检索器上均取得一致改进(平均提升nDCG@5 +3.4和nDCG@10 +4.5),在具有挑战性的子集上提升更为显著。这些结果表明,预先修复盲点对于构建稳健可信的RAG系统至关重要。

AI 推荐理由

论文探讨了检索增强生成系统中的盲点问题,涉及推理过程中信息检索的可靠性与准确性。

论文信息
作者 Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt
发布日期 2026-02-10
arXiv ID 2602.09616
相关性评分 7/10 (相关)