自主机器学习 强化学习 持续优化 自适应采样 演化数据缓冲
摘要

自主机器学习工程(MLE)要求智能体在长周期内进行持续、迭代的优化。尽管基于LLM的智能体展现出潜力,但当前基于提示的MLE智能体由于参数冻结而存在行为停滞问题。虽然强化学习(RL)可以提供解决方案,但在MLE中的应用受到执行延迟高和数据选择效率低的限制。为此,本文提出AceGRPO方法,包含两个核心组件:(1)演化数据缓冲区,持续将执行轨迹转化为可复用的训练任务;(2)由可学习性势函数引导的自适应采样策略,动态优先选择智能体学习前沿的任务以最大化学习效率。通过AceGRPO训练的Ace-30B模型在MLE-Bench-Lite上实现了100%的有效提交率,接近专有前沿模型的性能,并优于更大的开源基线模型(如DeepSeek-V3.2),展示了其在持续迭代优化方面的强大能力。

AI 推荐理由

论文聚焦于自主机器学习工程中的持续优化与自我进化机制,提出适应性课程增强的策略。

论文信息
作者 Yuzhu Cai, Zexi Liu, Xinyu Zhu, Cheng Wang, Jiaao Chen et al.
发布日期 2026-02-08
arXiv ID 2602.07906
相关性评分 9/10 (高度相关)