摘要
物理常识推理是人类智能的重要组成部分,使个体能够理解环境、预测事件并导航物理空间。近年来,自然语言处理领域对推理任务的兴趣不断增长。然而,此前尚未有研究考察大语言模型(LLMs)在低资源语言如巴斯克语中的非问答型物理常识推理任务表现。本文以意大利语GITA为起点,提出了BasPhyCo数据集,这是首个针对巴斯克语的标准及方言变体的非问答型物理常识推理数据集。我们从三个层次评估了模型的常识理解能力:区分合理与不合理叙述(准确性)、识别导致叙述不合理的冲突元素(一致性)以及确定造成不合理性的具体物理状态(可验证性)。实验结果表明,在可验证性方面,LLMs在低资源语言如巴斯克语中表现出有限的物理常识推理能力,尤其是在处理方言变体时。
AI 推荐理由
论文聚焦于物理常识推理任务,评估LLM在低资源语言中的推理能力,属于reasoning主题的核心研究。
论文信息