RAG 提示工程 多跳问答 小型语言模型 推理能力
摘要

检索增强生成(RAG)是一种通过整合外部知识来增强语言模型事实基础的强大方法。尽管已在大型语言模型中广泛研究,但针对小型语言模型(SLMs)的RAG优化仍是一个关键的研究空白,特别是在需要复杂推理的多跳问答任务中。在这些系统中,提示模板设计是一个关键但尚未充分探索的影响性能的因素。本文通过大规模实证研究探讨这一因素,在HotpotQA数据集上评估了24种不同的提示模板。该集合包括一个标准RAG提示、九种文献中已有的良好结构化技术以及14种新颖的混合变体,并在两个主流SLMs(Qwen2.5-3B Instruct和Gemma3-4B-It)上进行了测试。基于18720个实例的测试集,结果表明,与标准RAG提示相比,Qwen2.5和Gemma3-4B-It的性能分别提升了83%和84.5%,两者均提高了6%。本研究还提供了具体分析和可操作的建议,以设计适用于资源受限环境的高效且有效的基于SLM的RAG系统的提示。

AI 推荐理由

论文聚焦于RAG在多跳问答任务中的性能优化,涉及复杂推理过程,与推理能力密切相关。

论文信息
作者 Amir Hossein Mohammadi, Ali Moeinian, Zahra Razavizade, Afsaneh Fatemi, Reza Ramezani
发布日期 2026-02-14
arXiv ID 2602.13890
相关性评分 9/10 (高度相关)