ChunkWise LoRA：面向内存高效低秩适配与加速大语言模型推理的自适应序列分块方法

摘要

近期低秩适配（LoRA）技术实现了大语言模型（LLM）的高效微调，但现有方法对所有输入token采用静态秩配置，忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA，一种动态自适应方法，根据token复杂度将序列划分为可变长度块，并为每块分配定制化的低秩配置。系统引入运行时调度器，通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性，设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明，该方法相较基线LoRA最多降低34%延迟、减少38%内存占用，同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统，适用于实际部署。

AI 推荐理由

聚焦LLM推理中的内存效率优化，涉及KV缓存策略，但非Agent Memory核心机制。

论文信息

作者 Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani

发布日期 2026-01-28

arXiv ID 2601.21109