planning reasoning knowledge graphs benchmarking LLM evaluation
摘要

本文提出LLM-Wikirace,一个用于评估大语言模型(LLMs)规划、推理和世界知识能力的基准测试。在该基准中,模型需要逐步通过维基百科的超链接从给定源页面导航至目标页面,要求具备前瞻规划能力和对现实世界概念连接关系的推理能力。我们评估了包括Gemini-3、GPT-5和Claude Opus 4.5在内的多种开源和闭源模型,这些模型在简单任务中表现出色,但在困难任务中性能显著下降。分析表明,世界知识是成功的关键因素之一,但当达到一定阈值后,规划和长时程推理能力成为主导因素。轨迹级分析进一步揭示,即使是最强模型在失败后也难以重新规划,常陷入循环而非恢复。LLM-Wikirace作为一个简单的基准,揭示了当前推理系统的明显局限性,为具有规划能力的LLMs提供了一个开放的验证平台。

AI 推荐理由

论文聚焦于LLM在真实知识图谱中的长期规划与推理能力,是规划能力研究的核心内容。

论文信息
作者 Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang et al.
发布日期 2026-02-18
arXiv ID 2602.16902
相关性评分 9/10 (高度相关)