Agent 工具调用 自我干预 错误恢复 编码代理
摘要

由大型语言模型驱动的自主编码代理在软件行业中被越来越多地用于自动化复杂的工程任务。然而,这些代理容易出现各种不良行为,例如偏离用户指令、陷入重复循环或未能正确使用工具。这些问题会中断开发流程,并通常需要耗费大量资源的人工干预。本文提出了一种能够在大规模上自动从代理不良行为中恢复的系统。我们首先基于生产流量分析引入了一个不良行为分类体系,识别出三种主要类别:规范偏移、推理问题和工具调用失败,这些情况约占所有代理轨迹的30%。为了解决这些问题,我们开发了一个轻量级、异步的自我干预系统Wink。Wink观察代理轨迹并提供针对性的纠正指导,以引导代理回到高效路径。我们在超过10,000条真实世界代理轨迹上评估了该系统,发现其能够成功解决90%需要单次干预的不良行为。此外,在我们的生产环境中进行的实时A/B测试表明,该系统显著减少了工具调用失败、每会话令牌数和每会话工程师干预次数。我们分享了设计和部署该系统的经验,提供了关于构建大规模弹性代理系统的挑战性见解。

AI 推荐理由

论文聚焦于编码代理工具调用失败问题,提出Wink系统进行干预,属于技能学习与工具使用相关的核心研究。

论文信息
作者 Rahul Nanda, Chandra Maddila, Smriti Jha, Euna Mehnaz Khan, Matteo Paltenghi et al.
发布日期 2026-02-19
arXiv ID 2602.17037
相关性评分 8/10 (高度相关)