摘要
长输入序列对于大型语言模型(LLMs)的上下文学习、文档理解和多步推理至关重要。然而,Transformer的二次注意力成本使得推理过程内存密集且缓慢。尽管上下文蒸馏(CD)可以将信息转移到模型参数中,但逐提示蒸馏由于训练成本和延迟而不切实际。为了解决这些限制,我们提出了Doc-to-LoRA(D2L),一种轻量级超网络,通过元学习在单次前向传递中执行近似CD。给定一个未见过的提示,D2L为一个目标LLM生成一个LoRA适配器,使后续查询无需重新消耗原始上下文,从而降低目标LLM推理阶段的延迟和KV缓存内存消耗。在长上下文“针尖在麦垛中”任务中,D2L成功地将上下文映射到存储针信息的适配器中,在超过目标LLM原生上下文窗口长度4倍的情况下实现了接近完美的零样本准确率。在计算资源有限的真实世界问答数据集上,D2L优于标准CD,同时显著降低了峰值内存消耗和更新延迟。我们设想D2L可以促进LLM的快速适应,开启频繁知识更新和个人化聊天行为的可能性。
AI 推荐理由
论文聚焦于LLM在处理长上下文时的内存效率问题,提出了一种轻量级方法来减少推理阶段的内存消耗和延迟。
论文信息