Agent Memory AI Evaluation
摘要

大语言模型作为裁判(LLM-as-a-Judge)通过利用大语言模型实现了可扩展的AI评估,但随着被评估对象日益复杂、专业化和多步骤化,其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此,研究转向“以智能体为裁判”(Agent-as-a-Judge),其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆,实现更稳健、可验证且细致的评估。尽管此类系统迅速发展,领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述,提出刻画范式转变的关键维度与发展阶段分类法,梳理核心方法并覆盖通用与专业领域的应用,同时分析前沿挑战并指明未来研究方向。

AI 推荐理由

论文将持久记忆作为Agent-as-a-Judge的关键能力之一,但非核心研究主题。

论文信息
作者 Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.
发布日期 2026-01-08
arXiv ID 2601.05111
相关性评分 6/10 (相关)