Chain-of-Thought 推理评估 多智能体系统 LLM评估
摘要

在多智能体信息检索(IR)流水线中,基于LLM的代理通过交换中间推理(即思维链,Chain-of-Thought,CoT)来完成搜索和排序等任务。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的评估指标:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。实验在五个基准上测试了四个Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确率无显著相关性,揭示了当前基于准确率的推理能力排行榜存在盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。

AI 推荐理由

论文聚焦于Chain-of-Thought(CoT)推理的质量评估,直接涉及LLM/Agent的推理能力。

论文信息
作者 Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar
发布日期 2026-02-19
arXiv ID 2602.17544
相关性评分 9/10 (高度相关)