tool-integrated reasoning error localization policy optimization credit assignment
摘要

工具集成推理(TIR)使LLM代理能够通过规划、工具使用和迭代修正来解决任务,但在这种设置下基于结果的强化学习面临稀疏、延迟奖励和弱步骤级信用分配的问题。在长跨度的TIR轨迹中,早期不可恢复的错误可能决定任务成败,因此需要定位第一个不可恢复步骤并利用其进行细粒度信用分配。本文提出错误定位策略优化(ELPO),通过固定展开预算下的二分查找展开树定位第一个不可恢复步骤,通过层次优势归因将树结构转化为稳定的训练信号,并应用错误定位自适应裁剪以增强对关键步骤及其后续部分的校正更新。在数学、科学问答和代码执行等TIR基准测试中,ELPO在可比采样预算下始终优于强代理RL基线,在Pass@K和Major@K扩展、展开排名质量和工具调用效率方面均有额外提升。

AI 推荐理由

论文聚焦于LLM在工具集成推理中的错误定位与策略优化,直接提升其推理能力。

论文信息
作者 Qiao Liang, Yuke Zhu, Chao Ge, Lei Yang, Ying Shen et al.
发布日期 2026-02-10
arXiv ID 2602.09598
相关性评分 9/10 (高度相关)