self-evolution LLM agents recommendation system autonomous optimization
摘要

优化大规模机器学习系统(如全球视频平台的推荐模型)需要在庞大的超参数搜索空间中进行导航,并设计复杂的优化器、架构和奖励函数以捕捉用户行为的细微变化。传统方法依赖大量手动迭代测试新假设,本文提出一种自进化系统,利用Google Gemini系列大语言模型(LLMs)在端到端自动化流程中自主生成、训练并部署高性能复杂模型变更。该系统包含一个离线代理(内循环),通过代理指标进行高吞吐量假设生成;以及一个在线代理(外循环),在实时生产环境中验证候选方案是否符合延迟的核心业务指标。这些代理作为专门的机器学习工程师(MLEs),展现出深度推理能力,发现优化算法和模型架构的新改进,并制定针对长期用户参与度的创新奖励函数。YouTube上的多个成功生产发布案例表明,这种自主、由LLM驱动的进化方法在开发速度和模型性能上均优于传统工程流程。

AI 推荐理由

论文核心研究LLM驱动的自主进化系统,涉及模型自我优化与持续改进机制。

论文信息
作者 Haochen Wang, Yi Wu, Daryl Chang, Li Wei, Lukasz Heldt
发布日期 2026-02-10
arXiv ID 2602.10226
相关性评分 10/10 (高度相关)