摘要
由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务,但其高效服务仍面临挑战,包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架,清晰分离工作流定义与执行,并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力,通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦,支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行,实现对动态演进工作流的自适应路由、调度与资源管理。实验表明,Nalar在三个智能体工作负载上显著降低尾部延迟(34%–74%),最高提速2.9倍,在基线系统失效时仍可维持80 RPS,并能扩展至13万Future对象且控制开销低于500毫秒。
AI 推荐理由
论文提出托管状态层以解耦逻辑状态与物理存储,涉及Agent Memory机制但非核心焦点。
论文信息