强化学习 进化算法 系统提示 自我进化 LLM优化
摘要

构建能够从经验中自主自我改进的智能体系统是人工智能领域的长期目标。目前,大型语言模型(LLMs)主要通过两种机制实现自我改进:通过自我反思更新上下文,以及通过强化学习(RL)更新权重。在本文中,我们提出了进化系统提示学习(E-SPL),一种联合改进模型上下文和模型权重的方法。在每次强化学习迭代中,E-SPL选择多个系统提示并并行运行。它根据每个系统提示对模型权重进行强化学习更新,并通过由LLM驱动的突变和交叉对系统提示种群进行进化更新。每个系统提示都有一个TrueSkill评分用于进化选择,该评分基于每次强化学习迭代批次中的相对性能进行更新。E-SPL鼓励将声明性知识编码在提示中与过程性知识编码在权重中自然分离,从而在推理和智能体任务中取得更好的性能。例如,在一个从易到难(AIME→BeyondAIME)的泛化设置中,E-SPL将强化学习的成功率从38.8%提升至45.1%,同时优于反射提示进化(40.0%)。总体而言,我们的结果表明,将强化学习与系统提示进化相结合可以显著提高样本效率和泛化能力。

AI 推荐理由

论文提出了一种结合进化机制的系统提示学习方法,直接针对Agent/LLM的自我进化能力进行研究。

论文信息
作者 Lunjun Zhang, Ryan Chen, Bradly C. Stadie
发布日期 2026-02-16
arXiv ID 2602.14697
相关性评分 9/10 (高度相关)