HyperOffload：面向SuperNode架构的大语言模型图驱动分层内存管理

摘要

随着大语言模型（LLMs）向长上下文推理和稀疏架构演进，其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池，现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload，采用编译器辅助的图驱动方法，将远程内存访问显式建模为计算图中的操作，专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动，实现对张量生命周期与执行依赖的全局静态分析，并据此开发执行顺序优化算法，在计算密集区域隐藏远程内存延迟。在MindSpore中实现后，实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用，同时保持端到端性能。

AI 推荐理由

聚焦LLM内存管理，虽非专为Agent设计，但机制高度相关。

论文信息

作者 Fangxin Liu, Qinghua Zhang, Hanjing Shen, Qinghua Zhang, Zhibo Liang et al.

发布日期 2026-01-31

arXiv ID 2602.00748