RAG 对话问答 多轮对话 检索增强生成 模型评估
摘要

随着对话问答系统对检索增强生成(RAG)方法的依赖增加,本文针对多轮对话场景下的RAG方法进行了系统性比较。现有研究大多局限于单轮设置,而多轮对话中对话历史、指代和用户意图的变化显著增加了检索难度。本文在八个不同领域的对话问答数据集上,对基础和高级RAG方法进行了全面实证分析,评估了检索质量和答案生成效果,并分析了性能随对话轮次的变化趋势。结果表明,稳健且简单的重排序、混合BM25和HyDE等方法在多轮对话中表现优于基础RAG方法,而一些高级技术未能带来性能提升,甚至低于无RAG基线。此外,数据集特征和对话长度显著影响检索效果,说明没有一种RAG策略能在所有场景中占优。总体而言,有效的对话RAG更依赖于检索策略与数据集结构的匹配,而非方法复杂度。

AI 推荐理由

论文探讨了RAG方法在多轮对话问答中的表现,涉及推理过程中的检索与生成质量评估。

论文信息
作者 Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann
发布日期 2026-02-10
arXiv ID 2602.09552
相关性评分 7/10 (相关)