摘要
近年来基于大推理模型(LRMs)的深度搜索代理在复杂问题回答中表现出色,其核心能力是通过迭代规划、行动和收集证据实现的集成推理。然而,主流方法通常仅依赖结果导向的监督训练,忽视了中间思考和行动的质量。本文提出SRR-Judge框架,用于对推理和搜索动作进行可靠的步骤级评估。该框架整合到改进的ReAct风格的评分与优化流程中,为集成推理提供细粒度指导,并支持高效的后训练标注。利用SRR标注的数据,我们采用迭代拒绝采样微调方法增强基础代理的深度搜索能力。实验证明,SRR-Judge在步骤级评估上比DeepSeek-V3.1等更大模型更可靠,其评分与最终答案正确性高度相关。此外,将策略与SRR-Judge标注的轨迹对齐可显著提升性能,在多个具有挑战性的深度搜索基准测试中平均绝对pass@1指标提升了超过10%。
AI 推荐理由
论文聚焦于增强搜索代理的推理能力,提出SRR-Judge框架用于评估和优化推理过程。
论文信息