摘要
随着大语言模型(LLMs)向长上下文推理和稀疏架构演进,其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池,现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload,采用编译器辅助的图驱动方法,将远程内存访问显式建模为计算图中的操作,专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动,实现对张量生命周期与执行依赖的全局静态分析,并据此开发执行顺序优化算法,在计算密集区域隐藏远程内存延迟。在MindSpore中实现后,实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用,同时保持端到端性能。
AI 推荐理由
聚焦LLM内存管理,虽非专为Agent设计,但机制高度相关。
论文信息