多语言推理 文化感知 基准测试 LLM评估 模板填充
摘要

多语言基准测试很少针对文化背景下的前提进行推理测试:翻译数据集保留了以英语为中心的场景,而以文化为中心的数据集通常缺乏对所需推理的控制。我们提出了Macaron,一个以模板为核心的基准测试,能够在不同语言的问题中分解推理类型和文化因素。利用100个与语言无关的模板,涵盖7种推理类型和22种文化方面,本地标注者创建了与情景一致的英文和本地语言的多项选择题,并系统地推导出真假判断题。Macaron包含11,862个实例,覆盖20个国家/文化背景、10种文字和20种语言(包括阿姆哈拉语、约鲁巴语、祖鲁语、吉尔吉斯语等低资源语言以及一些阿拉伯方言)。在对21个多语言LLM的零样本评估中,推理模式模型表现最强,且英语与本地语言性能接近,而开源权重模型在本地语言中性能显著下降,在真假任务中常接近随机水平。文化相关的数学和计数模板始终最难。数据可通过此链接访问:https://huggingface.co/datasets/AlaaAhmed2444/Macaron。

AI 推荐理由

论文聚焦于多语言、多文化背景下的推理能力评估,设计了基于模板的基准测试,直接涉及LLM的推理机制。

论文信息
作者 Alaa Elsetohy, Sama Hadhoud, Haryo Akbarianto Wibowo, Chenxi Whitehouse, Genta Indra Winata et al.
发布日期 2026-02-11
arXiv ID 2602.10732
相关性评分 9/10 (高度相关)