大型语言模型在长上下文代码问答中的鲁棒性与推理准确性

代码理解长上下文推理模型鲁棒性软件工程

摘要

随着大型语言模型（LLMs）在需要处理长代码上下文的软件工程任务中应用日益广泛，其在不同输入条件下的鲁棒性仍不明确。本文通过受控消融实验系统研究了长上下文代码问答任务，测试模型对答案格式、干扰项和上下文规模的敏感性。我们扩展了LongCodeBench Python数据集，新增COBOL和Java的问答集，并在三种设置下评估了最先进的模型：（i）打乱的多选选项，（ii）开放性问题，以及（iii）包含相关和对抗性无关信息的“针在 haystack”上下文。结果表明，在打乱的多选选项和开放性问题中，模型性能显著下降，并且在存在无关线索时表现出脆弱性。我们的研究揭示了当前长上下文评估的局限性，并为评估遗留系统和现代系统的代码推理能力提供了更广泛的基准。

AI 推荐理由

论文聚焦于LLM在长上下文代码问答中的推理鲁棒性，直接涉及推理能力评估与挑战。

论文信息

作者 Kishan Maharaj, Nandakishore Menon, Ashita Saxena, Srikanth Tamilselvam

发布日期 2026-02-19

arXiv ID 2602.17183