摘要
大语言模型(LLMs)面临“知识截止”挑战,其冻结的参数化记忆难以直接内化新信息。尽管监督微调(SFT)常用于更新知识,但往往仅修改事实内容,未能有效提升模型利用新知识进行问答或决策的能力。强化学习(RL)对习得推理技能至关重要,但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交,据此提出参数化技能迁移(PaST)框架,通过从源域提取领域无关的技能向量,在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明,PaST显著提升知识整合与工具使用性能,展现出良好的可扩展性与跨域迁移能力。
AI 推荐理由
聚焦参数化记忆更新与技能迁移,涉及LLM记忆机制但非核心架构研究。
论文信息