摘要
大语言模型(LLM)推理具有显著挑战性,其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响,当前主要瓶颈在于内存与互连,而非计算能力。为应对这些挑战,本文提出四项架构研究方向:高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽;近存计算与3D内存-逻辑堆叠以提升内存带宽;以及低延迟互连以加速通信。尽管聚焦数据中心AI场景,本文也探讨了上述技术在移动设备中的适用性。
AI 推荐理由
聚焦LLM推理中的内存瓶颈,但非针对Agent Memory机制。
论文信息