摘要
智能体大语言模型(LLM)系统依赖外部记忆以支持长时程状态维护与多智能体并发执行,但随着记忆规模和并行访问量增长,集中式索引与启发式分区成为性能瓶颈。本文提出ShardMemo——一种预算受限的分层记忆服务,包含A层(每智能体工作状态)、B层(带本地近似最近邻索引的分片证据)和C层(版本化技能库)。B层采用“作用域优先路由”策略,通过结构化资格约束在路由或ANN搜索前屏蔽无效分片,并将分片探测建模为对合格分片的掩码混合专家(MoE)路由,支持Top-B或自适应Top-P采样。路由器基于证据到分片的监督信号训练。实验表明,ShardMemo在LoCoMo上显著优于最强基线,在固定预算下提升F1分数并降低检索开销与延迟。
AI 推荐理由
论文标题与内容均聚焦于LLM Agent的分层外部记忆系统设计,核心解决记忆扩展与路由问题。
论文信息