低秩适配 内存优化
摘要

近期低秩适配(LoRA)技术实现了大语言模型(LLM)的高效微调,但现有方法对所有输入token采用静态秩配置,忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA,一种动态自适应方法,根据token复杂度将序列划分为可变长度块,并为每块分配定制化的低秩配置。系统引入运行时调度器,通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性,设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明,该方法相较基线LoRA最多降低34%延迟、减少38%内存占用,同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统,适用于实际部署。

AI 推荐理由

聚焦LLM推理中的内存效率优化,涉及KV缓存策略,但非Agent Memory核心机制。

论文信息
作者 Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani
发布日期 2026-01-28
arXiv ID 2601.21109
相关性评分 6/10 (相关)