通过可重用性和可验证性评估思维链推理

Chain-of-Thought 推理评估多智能体系统 LLM评估

摘要

在多智能体信息检索（IR）流水线中，基于LLM的代理通过交换中间推理（即思维链，Chain-of-Thought，CoT）来完成搜索和排序等任务。当前对CoT的评估主要关注目标任务的准确性，但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限，本文引入了两个新的评估指标：可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦，可重用性衡量Executor能否轻松复用Thinker的CoT，而可验证性衡量Executor能否通过CoT匹配Thinker的答案。实验在五个基准上测试了四个Thinker模型与十个Executor模型的组合。结果表明，可重用性和可验证性与标准准确率无显著相关性，揭示了当前基于准确率的推理能力排行榜存在盲点。令人意外的是，专门用于推理的模型生成的CoT并不比通用LLM（如Llama和Gemma）生成的CoT更具可重用性或可验证性。

AI 推荐理由

论文聚焦于Chain-of-Thought（CoT）推理的质量评估，直接涉及LLM/Agent的推理能力。

论文信息

作者 Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar

发布日期 2026-02-19

arXiv ID 2602.17544