摘要
尽管语言模型持续发展,但有时其表现不如早期版本。现有方法资源消耗大,难以快速应对问题。本文假设每个语言模型内部存在适用于特定任务的局部模块,并通过激活分析识别这些模块。随后,将针对特定任务激活的模块移植到目标模型中,从而在不进行额外训练或微调的情况下实现即时且可衡量的功能改进。实验表明,跨代模型间移植激活选择的模块可显著提升性能,最高达到目标基线的两倍,并实现超过100%的差距恢复。此外,在基础模型与其指令调优版本之间进行移植时,也能显著提升较弱模型的表现。研究证明了语言模型中高度本地化模块的能力转移可行性,并提出了模型移植这一新研究方向。
AI 推荐理由
论文提出通过移植内部模块实现模型功能增强,涉及技能模块的识别与应用,属于技能学习范畴。
论文信息