摘要
近期低秩适配(LoRA)技术实现了大语言模型(LLM)的高效微调,但现有方法对所有输入token采用静态秩配置,忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA,一种动态自适应方法,根据token复杂度将序列划分为可变长度块,并为每块分配定制化的低秩配置。系统引入运行时调度器,通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性,设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明,该方法相较基线LoRA最多降低34%延迟、减少38%内存占用,同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统,适用于实际部署。
AI 推荐理由
聚焦LLM推理中的内存效率优化,涉及KV缓存策略,但非Agent Memory核心机制。
论文信息