摘要
大型语言模型(LLMs)已成为自然语言表格推理的强大工具,但现有方法存在局限。基于提示的方法依赖语言推理或单次程序生成,缺乏步骤级验证;基于代理的方法虽使用工具进行闭环操作,但验证通常局部且回溯有限,导致错误传播和成本增加。本文提出TabTracer,一种代理框架,通过协调多步工具调用并跟踪中间表格状态,实现显式状态验证与回滚。首先,它通过类型化操作和轻量数值与格式检查实现步骤级验证,以提供可靠奖励并抑制幻觉。其次,执行反馈蒙特卡洛树搜索维护候选表格状态的搜索树,并利用反向传播的反思评分指导UCB1选择和回滚。最后,通过预算感知剪枝、去重和单调性门控的状态哈希减少冗余,降低token消耗。在TabFact、WikiTQ和CRT数据集上的全面评估表明,TabTracer在准确率上优于最先进基线最多6.7%,同时将token消耗减少了59-84%。
AI 推荐理由
论文聚焦于LLM在复杂表格推理中的能力提升,提出基于蒙特卡洛树搜索的框架,直接关联推理机制与方法。
论文信息