摘要
大语言模型作为裁判(LLM-as-a-Judge)通过利用大语言模型实现了可扩展的AI评估,但随着被评估对象日益复杂、专业化和多步骤化,其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此,研究转向“以智能体为裁判”(Agent-as-a-Judge),其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆,实现更稳健、可验证且细致的评估。尽管此类系统迅速发展,领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述,提出刻画范式转变的关键维度与发展阶段分类法,梳理核心方法并覆盖通用与专业领域的应用,同时分析前沿挑战并指明未来研究方向。
AI 推荐理由
论文将持久记忆作为Agent-as-a-Judge的关键能力之一,但非核心研究主题。
论文信息