Agent Memory 数据合成 长期目标学习 软件演化 LLM微调
摘要

尽管大型语言模型(LLMs)在短期任务中表现出色,但将其扩展到长期目标代理工作流程仍面临挑战。核心瓶颈在于缺乏能够捕捉真实长期依赖结构和跨阶段演化动态的训练数据。现有合成方法要么局限于受模型分布约束的单一特征场景,要么需要高昂的人工标注成本,无法提供可扩展的高质量监督。本文通过重新审视现实世界中的软件演化过程,提出了一种基于Pull Request(PR)序列的数据合成方法。PR序列自然包含了长期学习所需的监督信号,将复杂目标分解为可验证的提交单元,并通过错误修复历史编码真实的优化模式。基于此,我们提出了daVinci-Agency,通过三个相互关联的机制系统地挖掘链式PR中的结构化监督:(1) 通过连续提交进行渐进式任务分解;(2) 通过统一的功能目标强制长期一致性;(3) 从真实的错误修复轨迹中实现可验证的优化。与独立处理每一步的合成轨迹不同,daVinci-Agency的PR基础结构天然保留了因果依赖和迭代优化,有助于教授持续的目标导向行为,并自然对齐项目级、全周期任务建模。

AI 推荐理由

论文涉及长期目标导向行为的训练数据生成,与Agent Memory中的因果依赖和迭代优化相关。

论文信息
作者 Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si et al.
发布日期 2026-02-02
arXiv ID 2602.02619
相关性评分 7/10 (相关)