参数化记忆 技能迁移
摘要

大语言模型(LLMs)面临“知识截止”挑战,其冻结的参数化记忆难以直接内化新信息。尽管监督微调(SFT)常用于更新知识,但往往仅修改事实内容,未能有效提升模型利用新知识进行问答或决策的能力。强化学习(RL)对习得推理技能至关重要,但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交,据此提出参数化技能迁移(PaST)框架,通过从源域提取领域无关的技能向量,在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明,PaST显著提升知识整合与工具使用性能,展现出良好的可扩展性与跨域迁移能力。

AI 推荐理由

聚焦参数化记忆更新与技能迁移,涉及LLM记忆机制但非核心架构研究。

论文信息
作者 Pingzhi Tang, Yiding Wang, Muhan Zhang
发布日期 2026-01-16
arXiv ID 2601.11258
相关性评分 7/10 (相关)