摘要
本地部署的小型语言模型(SLMs)需在严格的内存与计算约束下持续支持多样化任务,因此不可避免地需选择性依赖云端大语言模型(LLMs)。在持续学习过程中调控云协助具有挑战性,因为基于奖励的强化学习常导致不稳定的卸载行为,并在任务分布变化时加剧灾难性遗忘。本文提出DA-GRPO方法,作为Group Relative Policy Optimization的双优势扩展,将云使用约束直接融入优势函数计算,避免固定奖励塑形和外部路由模型。该设计使本地模型能联合学习任务能力与协作行为,使云请求在训练后自然出现,同时满足预设的协助预算。在数学推理与代码生成基准上的实验表明,DA-GRPO相比现有协同与路由方法显著提升任务切换后的准确率、大幅减少遗忘,并保持稳定的云使用量。
AI 推荐理由
涉及本地模型在内存限制下的持续学习,与Agent Memory间接相关。
论文信息