摘要
本文提出了BaziQA-Benchmark,一个用于评估大型语言模型在符号推理和时间组合推理方面表现的标准基准。该基准来源于2021年至2025年全球占卜师竞赛中精心挑选的200道多项选择题,每道题目都需要基于固定的符号图表进行结构化推理,并处理相互作用的时间条件。与轶事或提示驱动的评估不同,BaziQA-Benchmark能够实现客观评分并在不同年份、领域和模型家族之间进行受控比较。我们对当前的语言模型进行了多轮设置下的评估,并分析了其在时间难度、推理领域和推理协议方面的性能变化。为进一步探究推理行为,我们引入了一种轻量级的结构化推理协议,该协议通过约束推理顺序而不增加领域知识来限制推理过程。结果表明,模型的表现始终优于随机猜测,但距离饱和仍有较大差距,表现出对时间组合和推理顺序的高度敏感性,以及在精确时间定位和多条件符号判断方面的系统性失败。
AI 推荐理由
论文聚焦于评估LLM的符号推理与时间组合推理能力,属于推理能力的核心研究。
论文信息