强化学习 工具使用 代理系统 检查表奖励 多步骤任务
摘要

AI代理越来越多地通过推理多轮用户交互并调用外部工具来解决现实任务。然而,在此类场景中应用强化学习仍然具有挑战性:实际目标通常缺乏可验证的奖励,而是强调开放行为;此外,针对多轮、多步骤代理工具使用的强化学习仍处于探索阶段;构建和维护可执行工具环境的成本较高,限制了规模和覆盖范围。本文提出CM2,一种用检查表奖励替代可验证结果奖励的强化学习框架。CM2将每一轮预期行为分解为细粒度的二元标准,并结合显式证据和结构化元数据,将开放判断转化为更稳定的分类决策。为了平衡稳定性和信息量,该方法采用稀疏奖励分配但密集评估标准的策略。训练在可扩展的LLM模拟工具环境中进行,避免了大规模工具集的高工程成本。实验表明,CM2在多个基准测试中均优于监督微调方法,且效果可与同类开源基线模型相媲美甚至超越。CM2为优化多轮、多步骤工具使用代理提供了一种无需依赖可验证奖励的可扩展方案。

AI 推荐理由

论文聚焦于Agent的多步骤工具使用,提出基于检查表奖励的强化学习框架,直接关联技能学习与工具调用。

论文信息
作者 Zhen Zhang, Kaiqiang Song, Xun Wang, Yebowen Hu, Weixiang Yan et al.
发布日期 2026-02-12
arXiv ID 2602.12268
相关性评分 9/10 (高度相关)