摘要
随着微服务系统日益复杂,故障频发,准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用,导致精度低、延迟高。本文通过调研多位站点可靠性工程师(SRE)的根因分析实践,提炼出递归性、多维扩展性和跨模态推理三大特征,并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆(Agentic Memory),前者对每个告警进行递归细化候选根因,后者在时间窗口内累积并复用历史推理结果,减少冗余探索。实验表明,AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。
AI 推荐理由
论文提出Agentic Memory机制,作为核心组件用于跨告警推理复用,显著提升效率与准确性。
论文信息