摘要
智能体推理使大型推理模型(LRMs)能够动态获取外部知识,但检索过程的优化仍因缺乏密集且原则性的奖励信号而具有挑战性。本文提出InfoReasoner框架,通过合成语义信息增益奖励激励高效的信息搜寻。理论上,我们将信息增益重新定义为模型信念状态的不确定性减少,并证明其具备非负性、望远镜可加性与信道单调性等性质。实践中,为避免依赖人工标注的检索数据,我们设计了一种输出感知的内生估计器,利用双向文本蕴涵进行语义聚类,直接从模型输出分布计算信息增益。该内生奖励引导策略最大化认知进展,并通过群组相对策略优化(GRPO)实现高效训练。在七个问答基准上的实验表明,InfoReasoner显著优于强基线检索增强方法,平均准确率最高提升5.4%。
AI 推荐理由
聚焦检索优化与信息获取,涉及记忆机制但非核心研究。
论文信息