摘要
随着对大型模型进行全面评估的成本变得过高,从有限观察中预测模型性能变得至关重要。然而,现有的统计方法在模式变化、数据稀疏性和缺乏解释性方面存在困难,而纯粹的LLM方法则不可靠。本文提出STAR框架,该框架将数据驱动的统计期望与知识驱动的智能体推理相结合。STAR利用专门的检索器获取外部知识,并将语义特征嵌入到约束概率矩阵分解(CPMF)中,以生成带有不确定性的统计期望。然后,一个由期望违反理论(EVT)指导的推理模块通过家族内分析、跨模型比较和可信度感知聚合来优化预测,产生可追溯的解释。大量实验表明,STAR在基于分数和基于排名的指标上均优于所有基线,在极端稀疏条件下,其总分比最强的统计方法提高了14.46%,每个测试模型仅需1-2个观测分数。
AI 推荐理由
论文聚焦于通过结合统计推理与智能体推理提升模型性能预测,核心涉及推理能力的增强。
论文信息