知识并不足够：注入强化学习技能以实现持续适应

摘要

大语言模型（LLMs）面临“知识截止”挑战，其冻结的参数化记忆难以直接内化新信息。尽管监督微调（SFT）常用于更新知识，但往往仅修改事实内容，未能有效提升模型利用新知识进行问答或决策的能力。强化学习（RL）对习得推理技能至关重要，但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交，据此提出参数化技能迁移（PaST）框架，通过从源域提取领域无关的技能向量，在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明，PaST显著提升知识整合与工具使用性能，展现出良好的可扩展性与跨域迁移能力。

AI 推荐理由

聚焦参数化记忆更新与技能迁移，涉及LLM记忆机制但非核心架构研究。

论文信息

作者 Pingzhi Tang, Yiding Wang, Muhan Zhang

发布日期 2026-01-16

arXiv ID 2601.11258