摘要
近年来,大语言模型的进步使得基于LLM的代理在各种基准测试中表现出色。然而,在现实部署中的性能往往与基准测试结果存在差异,尤其是在复杂和不完美的环境中。这种差异主要源于当前训练和评估范式通常基于理想化假设,忽视了现实交互中的随机性和噪声。为弥合这一差距,我们引入了AgentNoiseBench,一个用于系统评估代理模型在噪声环境下的鲁棒性的框架。我们首先对现实场景中的偏差和不确定性进行了深入分析,并将环境噪声分为两种主要类型:用户噪声和工具噪声。基于此分析,我们开发了一个自动化流程,向现有的以代理为中心的基准注入可控噪声,同时保持任务可解性。利用该流程,我们在多种架构和参数规模的模型上进行了广泛评估。结果表明,不同噪声条件下模型性能存在显著变化,突显了当前代理模型对现实环境扰动的敏感性。
AI 推荐理由
论文聚焦于LLM代理在使用工具时的鲁棒性,涉及噪声环境下的技能表现评估。
论文信息