多LLM协作 自进化代理 偏好优化 上下文老虎机
摘要

近期的多LLM代理系统在提示优化和自动化问题求解方面表现出色,但许多系统在微调后保持求解器冻结或依赖静态偏好优化循环,这在长期任务中变得难以处理。我们提出了ATLAS(用于代理自进化的任务分布式学习),一个任务分布框架,该框架通过迭代开发轻量级研究代理,并将探索、超参数调整和参考策略管理等互补角色委托给专门的支持代理。我们的核心算法EvoDPO(进化直接偏好优化)能够自适应地更新阶段索引的参考策略。我们为概念漂移下的基于偏好的上下文老虎机提供了理论遗憾分析。此外,在非平稳线性上下文老虎机和科学机器学习(SciML)损失重新加权(以1D Burgers方程为例)上进行了实验。结果表明,ATLAS在稳定性与性能上优于静态单代理基线。

AI 推荐理由

论文涉及Agent的自进化机制和多LLM协作,与记忆相关但非核心主题。

论文信息
作者 Ujin Jeon, Jiyong Kwon, Madison Ann Sullivan, Caleb Eunho Lee, Guang Lin
发布日期 2026-02-02
arXiv ID 2602.02709
相关性评分 7/10 (相关)