以智能体为裁判

摘要

大语言模型作为裁判（LLM-as-a-Judge）通过利用大语言模型实现了可扩展的AI评估，但随着被评估对象日益复杂、专业化和多步骤化，其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此，研究转向“以智能体为裁判”（Agent-as-a-Judge），其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆，实现更稳健、可验证且细致的评估。尽管此类系统迅速发展，领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述，提出刻画范式转变的关键维度与发展阶段分类法，梳理核心方法并覆盖通用与专业领域的应用，同时分析前沿挑战并指明未来研究方向。

AI 推荐理由

论文将持久记忆作为Agent-as-a-Judge的关键能力之一，但非核心研究主题。

论文信息

作者 Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.

发布日期 2026-01-08

arXiv ID 2601.05111