跨多领域对话问答中RAG方法的全面比较

RAG 对话问答多轮对话检索增强生成模型评估

摘要

随着对话问答系统对检索增强生成（RAG）方法的依赖增加，本文针对多轮对话场景下的RAG方法进行了系统性比较。现有研究大多局限于单轮设置，而多轮对话中对话历史、指代和用户意图的变化显著增加了检索难度。本文在八个不同领域的对话问答数据集上，对基础和高级RAG方法进行了全面实证分析，评估了检索质量和答案生成效果，并分析了性能随对话轮次的变化趋势。结果表明，稳健且简单的重排序、混合BM25和HyDE等方法在多轮对话中表现优于基础RAG方法，而一些高级技术未能带来性能提升，甚至低于无RAG基线。此外，数据集特征和对话长度显著影响检索效果，说明没有一种RAG策略能在所有场景中占优。总体而言，有效的对话RAG更依赖于检索策略与数据集结构的匹配，而非方法复杂度。

AI 推荐理由

论文探讨了RAG方法在多轮对话问答中的表现，涉及推理过程中的检索与生成质量评估。

论文信息

作者 Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann

发布日期 2026-02-10

arXiv ID 2602.09552