检索增强生成 证据选择
摘要

检索增强生成(RAG)通过引入从大型外部语料库中检索到的证据来提升生成质量。然而,现有方法通常基于单个相关性静态选取前k个段落,未能利用段落间的组合增益,且常引入大量冗余。为此,本文提出OptiSet——一种以集合为中心的框架,统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式:首先将查询扩展为多个视角以构建多样化的候选池,再通过重选精炼形成紧凑的证据集;并设计了一种无需强LLM监督的自合成策略,从生成器的集合条件效用变化中推导偏好标签,识别互补与冗余证据;最后引入集合列表式训练策略,联合优化集合选择与排序,使模型偏好紧凑且高增益的证据集。大量实验表明,OptiSet在复杂组合问题上性能更优,且提升生成效率。

AI 推荐理由

涉及RAG中的证据选择与冗余处理,属记忆检索优化,但未聚焦Agent Memory机制本身。

论文信息
作者 Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.
发布日期 2026-01-08
arXiv ID 2601.05027
相关性评分 6/10 (相关)