摘要
基于大语言模型的深度研究智能体多采用ReAct框架,其线性设计难以回溯早期状态、探索替代路径或在长上下文中保持全局感知,易陷入局部最优与冗余搜索。本文提出Re-TRAC框架,通过在每条轨迹后生成结构化状态表示,汇总证据、不确定性、失败原因及后续计划,并以此引导后续轨迹,实现跨轨迹探索、迭代反思与全局信息驱动的规划,将研究重构为渐进式过程。实验表明,Re-TRAC在BrowseComp上相较ReAct提升15–20%;针对小模型引入Re-TRAC感知的监督微调,达到同规模SOTA性能。此外,工具调用与token消耗随轮次单调下降,表明其通过跨轨迹反思实现高效定向探索。
AI 推荐理由
提出跨轨迹状态表示以支持迭代反思与全局规划,属记忆机制关键应用。
论文信息