摘要
基于大语言模型(LLM)的智能体系统在处理复杂、长期任务方面展现出巨大潜力。然而,其效能受到静态配置的限制,这些配置在执行前固定不变,无法适应任务动态变化。现有方法依赖手动调度或启发式补丁,往往泛化能力差且优化碎片化。为此,本文提出ToolSelf,一种新的范式,实现工具驱动的运行时自我重构。通过将配置更新抽象为可调用工具,ToolSelf将任务执行与自我调整统一到单一动作空间,实现了从外部规则向内部参数的转变。智能体可根据任务进展自主更新子目标和上下文,并相应调整策略和工具箱,从而从被动执行者转变为任务与自我的双重管理者。此外,我们设计了配置感知两阶段训练(CAT),结合拒绝采样微调与轨迹级强化学习,以内化这种元能力。大量实验表明,ToolSelf在多种基准测试中表现优异,平均性能提升24.1%,展示了真正自适应智能体的发展路径。
AI 推荐理由
论文核心聚焦于Agent的自我适应与重构机制,属于自我进化(evolution)主题。
论文信息