摘要
检索增强生成(RAG)是一种通过整合外部知识来增强语言模型事实基础的强大方法。尽管已在大型语言模型中广泛研究,但针对小型语言模型(SLMs)的RAG优化仍是一个关键的研究空白,特别是在需要复杂推理的多跳问答任务中。在这些系统中,提示模板设计是一个关键但尚未充分探索的影响性能的因素。本文通过大规模实证研究探讨这一因素,在HotpotQA数据集上评估了24种不同的提示模板。该集合包括一个标准RAG提示、九种文献中已有的良好结构化技术以及14种新颖的混合变体,并在两个主流SLMs(Qwen2.5-3B Instruct和Gemma3-4B-It)上进行了测试。基于18720个实例的测试集,结果表明,与标准RAG提示相比,Qwen2.5和Gemma3-4B-It的性能分别提升了83%和84.5%,两者均提高了6%。本研究还提供了具体分析和可操作的建议,以设计适用于资源受限环境的高效且有效的基于SLM的RAG系统的提示。
AI 推荐理由
论文聚焦于RAG在多跳问答任务中的性能优化,涉及复杂推理过程,与推理能力密切相关。
论文信息