CVE-Factory：扩展代码安全漏洞的专家级智能体任务

摘要

评估和提升代码智能体的安全能力需要高质量、可执行的漏洞任务。然而现有研究依赖于昂贵且不可扩展的手动复现，并面临数据分布过时的问题。为解决这些问题，我们提出了CVE-Factory，这是首个多智能体框架，能够自动将稀疏的CVE元数据转换为高质量的可执行智能体任务。通过与人工专家复现的交叉验证，CVE-Factory实现了95%的解决方案正确率和96%的环境保真度，证明了其专家级质量。该方法在最新的真实漏洞上也取得了66.2%的验证成功率。自动化还带来了两个下游贡献：首先，构建了LiveCVEBench，这是一个持续更新的基准测试集，包含190个任务，涵盖14种语言和153个仓库，捕捉新兴威胁包括AI工具漏洞；其次，合成了超过1,000个可执行训练环境，首次实现了代码安全领域智能体任务的大规模扩展。微调后的Qwen3-32B模型在LiveCVEBench上的表现从5.3%提升至35.8%，超越了Claude 4.5 Sonnet，且提升效果可推广到Terminal Bench（12.5%至31.3%）。我们开源了CVE-Factory、LiveCVEBench、Abacus-cve（微调模型）、训练数据集和排行榜。所有资源均可在https://github.com/livecvebench/CVE-Factory获取。

AI 推荐理由

论文涉及Agent任务生成与执行，但未直接探讨Memory机制。

论文信息

作者 Xianzhen Luo, Jingyuan Zhang, Shiqi Zhou, Rain Huang, Chuan Xiao et al.

发布日期 2026-02-03

arXiv ID 2602.03012