LLM推理 错误检测 教育对话分析 语言特征分析 分类器评估
摘要

随着大语言模型(LLMs)在大规模教育对话分析中的应用日益广泛,当前流程缺乏可靠的方法来检测模型何时出错。本文研究是否可以通过LLM生成的推理来预测其自身预测的正确性。我们分析了30,300条课堂对话中的教师发言,每条发言均被多个最先进的LLMs标注为教学行为类型并附带推理过程。通过人工验证的真实标签,我们将任务定义为预测模型对特定发言的标注是否正确。使用TF-IDF编码LLM推理,并评估五种监督分类器。随机森林分类器达到F1分数0.83(召回率0.854),成功识别大部分错误预测并优于基线方法。针对特定教学行为构建专门检测器进一步提升了性能,表明错误检测受益于特定结构的语言线索。利用LIWC框架分析四个正确性语言标记:因果、区分、不确定性及洞察力。正确预测表现出基于因果的语言(如because、therefore),而错误推理更可能依赖认识论上的模糊表达(如might、could)和表现性元认知(如think、realize)。句法复杂度无法区分正确与错误推理,较长的推理并不更可靠。这些发现表明,基于推理的错误检测为自动化教育对话分析的质量控制提供了一种实用且可扩展的方法。

AI 推荐理由

论文聚焦于LLM推理能力的正确性检测,分析推理内容的语言特征与预测准确性之间的关系。

论文信息
作者 Bakhtawar Ahtisham, Kirk Vanacore, Zhuqian Zhou, Jinsook Lee, Rene F. Kizilcec
发布日期 2026-02-10
arXiv ID 2602.09832
相关性评分 9/10 (高度相关)