摘要
基于大语言模型(LLM)的多智能体仿真在多个应用领域日益普及,但受限于GPU内存压力而难以扩展。每个智能体维护其私有的驻留GPU状态,包括模型、前缀缓存和适配器,随着智能体数量增长迅速耗尽设备内存。作者识别出此类工作负载的两个关键特性:稀疏激活与可估计的调用顺序,并据此提出“调用距离”这一统一抽象,用于预测智能体未来LLM请求的相对顺序。基于该抽象,论文设计了ScaleSim——一个面向大规模多智能体仿真的内存高效LLM服务系统,支持主动预取、优先级驱逐及模块化智能体内存管理,在仿真基准上相较SGLang最高提速1.74倍。
AI 推荐理由
论文聚焦多智能体仿真中的GPU内存管理,提出基于调用距离的内存抽象与系统优化。
论文信息