摘要
大型语言模型(LLMs)越来越多地被用作自然语言生成的评估者,通过应用人类定义的评分标准来评估系统输出。然而,人类制定的标准通常是静态的,且与模型内部对语言质量的表示不一致。本文引入GER-Eval(用于评估的生成评估标准),研究LLMs是否能够自行设计并应用评估标准。我们评估了LLM定义的标准在语义连贯性、评分可靠性和与人类标准的一致性方面的表现。结果表明,LLMs能够可靠地生成可解释且任务感知的评估维度,并在模型内部保持一致性,但在事实性和知识密集型场景中其评分可靠性下降。闭源模型如GPT-4o在跨模型泛化和一致性方面优于开源模型如Llama。本研究将评估视为LLMs的一种学习语言能力,在模型内部具有一致性但跨模型存在碎片化,呼吁开发新的方法,联合建模人类和LLM的评估语言以提高可靠性和可解释性。
AI 推荐理由
论文探讨LLM设计和应用评估标准的能力,涉及推理与判断机制,属于推理能力的核心研究。
论文信息