信息检索控制 搜索增强推理
摘要

搜索增强型推理智能体通过多步推理与外部信息检索交替进行,但无约束的检索常导致冗余证据、上下文过载及学习不稳定。现有方法依赖基于结果的强化学习(RL),对信息获取调控指导有限。本文提出DeepControl框架,基于形式化的信息效用概念——衡量在给定推理状态下检索证据的边际价值——引入检索延续性与粒度控制机制,动态决定何时继续或停止检索以及扩展多少信息。通过退火控制策略,使智能体在训练中内化高效的信息获取行为。在七个基准上的实验表明,该方法显著优于强基线,在Qwen2.5-7B和Qwen2.5-3B上平均性能分别提升9.4%和8.6%,凸显自适应信息控制对复杂现实信息环境中扩展搜索增强型智能体的重要性。

AI 推荐理由

聚焦信息获取控制,涉及记忆检索机制但非核心记忆架构。

论文信息
作者 Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri
发布日期 2026-02-02
arXiv ID 2602.01672
相关性评分 8/10 (高度相关)