评估小型语言模型中RAG的提示工程技术：一种多跳问答方法

RAG 提示工程多跳问答小型语言模型推理能力

摘要

检索增强生成（RAG）是一种通过整合外部知识来增强语言模型事实基础的强大方法。尽管已在大型语言模型中广泛研究，但针对小型语言模型（SLMs）的RAG优化仍是一个关键的研究空白，特别是在需要复杂推理的多跳问答任务中。在这些系统中，提示模板设计是一个关键但尚未充分探索的影响性能的因素。本文通过大规模实证研究探讨这一因素，在HotpotQA数据集上评估了24种不同的提示模板。该集合包括一个标准RAG提示、九种文献中已有的良好结构化技术以及14种新颖的混合变体，并在两个主流SLMs（Qwen2.5-3B Instruct和Gemma3-4B-It）上进行了测试。基于18720个实例的测试集，结果表明，与标准RAG提示相比，Qwen2.5和Gemma3-4B-It的性能分别提升了83%和84.5%，两者均提高了6%。本研究还提供了具体分析和可操作的建议，以设计适用于资源受限环境的高效且有效的基于SLM的RAG系统的提示。

AI 推荐理由

论文聚焦于RAG在多跳问答任务中的性能优化，涉及复杂推理过程，与推理能力密切相关。

论文信息

作者 Amir Hossein Mohammadi, Ali Moeinian, Zahra Razavizade, Afsaneh Fatemi, Reza Ramezani

发布日期 2026-02-14

arXiv ID 2602.13890