强化学习 搜索代理 推理能力 信息增益 自证支持
摘要

强化学习(RL)已使大型语言模型(LLMs)能够自主完成复杂问答任务的搜索。然而,在多轮搜索场景中,搜索结果常存在高冗余和低信噪比的问题,导致代理陷入“隧道视野”,即早期噪声检索的强制解释引发不可逆的错误累积。为解决这些问题,本文提出SIGHT框架,通过自证支持(SES)和信息增益驱动的多样化分支增强基于搜索的推理能力。SIGHT通过SES提炼高保真证据,并计算信息增益分数以识别关键状态,从而指导动态提示干预(如去重、反思或自适应分支),生成新的分支。最终,通过组相对策略优化将SES与正确性奖励结合,SIGHT无需外部验证器即可内化稳健的探索策略。实验表明,SIGHT在单跳和多跳问答基准测试中显著优于现有方法,尤其在复杂推理场景中使用更少的搜索步骤。

AI 推荐理由

论文聚焦于增强基于搜索的推理能力,提出SIGHT框架解决多轮搜索中的冗余和噪声问题。

论文信息
作者 Wenlin Zhong, Jinluan Yang, Yiquan Wu, Yi Liu, Jianhang Yao et al.
发布日期 2026-02-12
arXiv ID 2602.11551
相关性评分 9/10 (高度相关)