摘要
大型语言模型(LLMs)在英语中表现出强大的数学推理能力,但其在低资源语言如僧伽罗语和泰米尔语中的推理能力是否基于真正的多语言推理还是依赖于翻译机制仍不清楚。本文通过构建一个由三种语言的母语者撰写的平行数据集,评估了四种主流大语言模型在六类数学问题上的表现,从基础算术到复杂的单位冲突和优化问题。结果表明,虽然基础算术推理在不同语言间具有较强的迁移性,但在僧伽罗语和泰米尔语中复杂推理任务的表现显著下降。不同模型和问题类型之间的失败模式也存在差异,这表明表面上的多语言能力可能并不反映跨语言一致的推理能力。这些发现挑战了模型在多语言任务中表现优异即能同等有效推理的常见假设,并突出了在多语言环境下进行细粒度、类型感知评估的重要性。
AI 推荐理由
论文核心研究LLM在低资源语言中的数学推理能力,直接涉及推理能力的评估与分析。
论文信息