摘要
本文展示了在高保真强化学习环境中训练AI智能体可以产生超越训练分布的泛化能力。我们引入了CoreCraft,这是EnterpriseBench套件中的第一个环境,由Surge AI开发。CoreCraft是一个完全运作的企业级客户支持组织模拟环境,包含超过2500个实体和23种独特工具,旨在评估AI智能体是否能够完成真实工作中所需的多步骤、领域特定的任务。前沿模型如GPT-5.2和Claude Opus 4.6在满足所有专家制定的评分标准时,任务完成率低于30%。通过使用Group Relative Policy Optimization(GRPO)和自适应裁剪方法训练GLM 4.6模型,在单个训练周期后,其在保留测试任务上的任务通过率从25.37%提升至36.76%。更重要的是,这些改进也转移到了分布外基准测试中。我们认为环境的三个特性与观察到的迁移效果一致:以多样化、具有挑战性的任务为中心的世界构建;专家制定的评分标准使奖励计算更加可靠;以及反映现实职业模式的企业工作流程。我们的结果表明,环境的质量、多样性和真实性是实现可泛化智能体能力的关键因素。
AI 推荐理由
论文重点研究了Agent在复杂企业环境中的任务规划与执行能力,涉及多步骤、领域特定工作的完成。
论文信息