Agent Memory Test-Time Scaling
摘要

测试时扩展通过分配额外的推理计算资源来增强大语言模型的推理能力,但现有搜索策略通常将推理轨迹视为一次性样本,导致宝贵的中间洞察被丢弃,造成大量计算冗余。为此,本文提出“回收搜索经验”(RSE),一种无需训练的自引导策略,将测试时搜索从孤立尝试转变为累积过程。RSE通过将原始推理轨迹提炼为共享经验库,正向复用中间结论以跳过冗余推导,负向复用失败模式以剪枝已知死胡同。理论分析证明了RSE在复杂推理任务中相较独立采样的效率优势;在HMMT24、HMMT25、IMO-Bench和HLE上的实验表明,RSE在相近计算成本下显著优于强基线,达到最先进的扩展效率。

AI 推荐理由

提出经验复用机制,构建共享记忆库以避免重复推理,核心涉及Agent记忆机制。

论文信息
作者 Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.
发布日期 2026-01-29
arXiv ID 2601.21684
相关性评分 8/10 (高度相关)