LLM Self-Improvement Recursive Thinking Verification Signals
摘要

现代大型语言模型(LLMs)在推理能力方面取得了快速进步,主要得益于使用可验证奖励的强化学习。本文探讨了这些LLMs是否可以在无需额外训练的情况下实现自我改进。我们识别出两个核心挑战:(i)高效生成多样且高质量的候选解决方案,以及(ii)在缺乏真实监督的情况下可靠地选择正确答案。为了解决这些问题,我们提出了测试时递归思考(TRT),一种迭代的自我改进框架,该框架基于特定回滚策略、积累的知识和自生成的验证信号进行生成。通过TRT,开源模型在AIME-25/24上达到了100%的准确率,并且在LiveCodeBench最难的问题上,闭源模型在没有外部反馈的情况下提高了10.4至14.8个百分点。

AI 推荐理由

论文提出了一种测试时递归思考框架,涉及自我改进和验证信号,与Agent Memory相关但非核心。

论文信息
作者 Yufan Zhuang, Chandan Singh, Liyuan Liu, Yelong Shen, Dinghuai Zhang et al.
发布日期 2026-02-03
arXiv ID 2602.03094
相关性评分 6/10 (相关)