摘要
随着大语言模型(LLMs)上下文窗口的显著扩展,这些模型理论上能够一次性处理数百万个token。然而,研究表明,模型在实际应用中对长上下文中信息的稳健利用能力与理论容量之间存在显著差距,尤其是在需要全面理解大量细节的任务中。本文评估了四款最先进的模型(Grok-4、GPT-4、Gemini 2.5和GPT-5)在长短期上下文任务中的表现。为此,研究使用了三个数据集:两个补充数据集用于检索烹饪食谱和数学问题,以及一个包含20,000条社交媒体帖子的主要数据集用于抑郁检测。结果显示,当社交媒体数据集的输入量超过5,000条帖子(70,000个token)时,所有模型的表现显著下降,准确率降至约50-53%。值得注意的是,在GPT-5模型中,尽管准确性急剧下降,但其精确度仍保持在约95%,这一特性对于如抑郁检测等敏感应用可能非常有效。这项研究还表明,“中间迷失”问题在较新的模型中已基本得到解决。该研究强调了模型在复杂、高容量数据任务中的理论容量与实际性能之间的差距,并突出了除简单准确率之外的其他指标在实际应用中的重要性。
AI 推荐理由
论文聚焦于LLM在长上下文处理中的性能,涉及记忆机制和信息利用能力。
论文信息