摘要
扩展大型语言模型(LLMs)通常依赖于增加参数数量或测试时计算量以提升性能。然而,这些策略在边缘设备部署时因内存和NPU资源有限而不切实际。为了解决这一问题,本文提出MeKi(基于存储的专家知识注入),一种通过存储空间而非计算量来扩展LLM容量的新系统。MeKi为每个Transformer层配备了基于标记级别的记忆专家,在生成过程中注入预存的语义知识。为了弥合训练容量与推理效率之间的差距,我们采用了一种重新参数化策略,将训练中使用的参数矩阵折叠到一个紧凑的静态查找表中。通过将知识卸载到ROM中,MeKi将模型容量与计算成本解耦,引入零推理延迟开销。大量实验表明,MeKi在相同推理速度下显著优于密集型LLM基线,验证了基于存储的扩展范式对于设备端LLMs的有效性。
AI 推荐理由
论文核心提出基于存储的专家知识注入机制,直接涉及Agent Memory的设计与实现。
论文信息