idea evaluation multi-perspective reasoning knowledge grounding LLM assessment
摘要

随着大型语言模型的快速发展,科学思想的产出显著增加,但相应的评估方法并未同步进步。科学评估需要知识基础、集体讨论和多标准决策。然而,现有方法常受限于知识视野狭窄、评估维度单一及LLM作为评判者的固有偏见。为此,本文将思想评估视为一个基于知识的多视角推理问题,并提出InnoEval框架,旨在模拟人类级别的思想评估。该框架利用异构深度知识搜索引擎从多样化的在线来源中检索并定位动态证据,并通过由不同学术背景评审者组成的创新评审委员会达成共识,实现多维解耦评估。本文构建了来自权威同行评审提交的综合数据集以验证InnoEval。实验表明,InnoEval在点对点、成对和群体评估任务中均优于基线方法,其判断模式和共识高度符合人类专家。

AI 推荐理由

论文聚焦于基于知识的多视角推理问题,直接涉及LLM的推理能力与评估机制。

论文信息
作者 Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue et al.
发布日期 2026-02-16
arXiv ID 2602.14367
相关性评分 9/10 (高度相关)