摘要
随着大型语言模型(LLMs)在需要处理长代码上下文的软件工程任务中应用日益广泛,其在不同输入条件下的鲁棒性仍不明确。本文通过受控消融实验系统研究了长上下文代码问答任务,测试模型对答案格式、干扰项和上下文规模的敏感性。我们扩展了LongCodeBench Python数据集,新增COBOL和Java的问答集,并在三种设置下评估了最先进的模型:(i)打乱的多选选项,(ii)开放性问题,以及(iii)包含相关和对抗性无关信息的“针在 haystack”上下文。结果表明,在打乱的多选选项和开放性问题中,模型性能显著下降,并且在存在无关线索时表现出脆弱性。我们的研究揭示了当前长上下文评估的局限性,并为评估遗留系统和现代系统的代码推理能力提供了更广泛的基准。
AI 推荐理由
论文聚焦于LLM在长上下文代码问答中的推理鲁棒性,直接涉及推理能力评估与挑战。
论文信息