摘要
本文提出了GLM-5,一种下一代基础模型,旨在将氛围编码范式转变为智能体工程。基于其前身的智能体、推理和编码(ARC)能力,GLM-5采用DSA方法显著降低训练和推理成本,同时保持长上下文保真度。为推进模型对齐与自主性,我们实现了一种新的异步强化学习基础设施,通过解耦生成与训练大幅提高后训练效率。此外,我们提出新颖的异步智能体RL算法,进一步提升RL质量,使模型能更有效地从复杂、长时程交互中学习。通过这些创新,GLM-5在主要开放基准测试中达到最先进水平。最关键的是,GLM-5在现实世界编程任务中表现出前所未有的能力,在端到端软件工程挑战中超越了之前的基线。
AI 推荐理由
论文重点介绍了GLM-5在自主编程和工具使用方面的能力提升,属于技能学习的核心研究。
论文信息