摘要
评估和提升代码智能体的安全能力需要高质量、可执行的漏洞任务。然而现有研究依赖于昂贵且不可扩展的手动复现,并面临数据分布过时的问题。为解决这些问题,我们提出了CVE-Factory,这是首个多智能体框架,能够自动将稀疏的CVE元数据转换为高质量的可执行智能体任务。通过与人工专家复现的交叉验证,CVE-Factory实现了95%的解决方案正确率和96%的环境保真度,证明了其专家级质量。该方法在最新的真实漏洞上也取得了66.2%的验证成功率。自动化还带来了两个下游贡献:首先,构建了LiveCVEBench,这是一个持续更新的基准测试集,包含190个任务,涵盖14种语言和153个仓库,捕捉新兴威胁包括AI工具漏洞;其次,合成了超过1,000个可执行训练环境,首次实现了代码安全领域智能体任务的大规模扩展。微调后的Qwen3-32B模型在LiveCVEBench上的表现从5.3%提升至35.8%,超越了Claude 4.5 Sonnet,且提升效果可推广到Terminal Bench(12.5%至31.3%)。我们开源了CVE-Factory、LiveCVEBench、Abacus-cve(微调模型)、训练数据集和排行榜。所有资源均可在https://github.com/livecvebench/CVE-Factory获取。
AI 推荐理由
论文涉及Agent任务生成与执行,但未直接探讨Memory机制。
论文信息