摘要
在多智能体信息检索(IR)流水线中,基于LLM的代理通过交换中间推理(即思维链,Chain-of-Thought,CoT)来完成搜索和排序等任务。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的评估指标:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。实验在五个基准上测试了四个Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确率无显著相关性,揭示了当前基于准确率的推理能力排行榜存在盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。
AI 推荐理由
论文聚焦于Chain-of-Thought(CoT)推理的质量评估,直接涉及LLM/Agent的推理能力。
论文信息