LLM Agents Robustness Partial Observability Dynamic Environments Objective Inference
摘要

大型语言模型越来越多地被部署为专门的代理,用于规划、调用工具并在长时域内采取行动。然而,许多现有评估假设了一个“干净的接口”,其中动态是明确且稳定的,工具和传感器是可靠的,成功由单一显式目标衡量,这往往高估了其在现实世界中的准备程度。实际上,代理面临规则不明确、信号不可靠、环境变化以及隐含的多利益相关者目标。因此,挑战不仅是解决问题,而是在解决问题的同时进行适应:决定信任什么、想要什么、何时验证以及何时回退或升级。我们通过四种操作情境对部署相关的鲁棒性进行了压力测试:部分可观测性、动态环境、噪声信号和动态代理状态。我们在一个基于网格的游戏环境中对代理型LLM进行了基准测试,该游戏具有简单的目标但需要长时域执行。这些场景违反了“干净接口”的假设,但仍可解决,迫使代理推断规则、支付信息成本、适应环境和内部变化,并在噪声下谨慎行动。通过对五种最先进的LLM代理的测试,我们发现名义上的任务求解能力与类似部署的鲁棒性之间存在显著差距。随着网格大小和时间跨度的增加,性能通常下降,但排名不稳定:当策略与不确定性环境匹配时,较弱的模型可能击败较强的模型。尽管没有明确指示,代理仍然在完成度、效率和避免惩罚之间进行权衡,表明它们能够部分推断目标。消融实验和特征分析揭示了模型特定的敏感性和失败驱动因素,推动了在部分可观测性、噪声和非平稳性下的验证、安全动作选择和目标推断的研究。

AI 推荐理由

论文探讨了LLM Agent在复杂环境中的适应性,涉及部分可观测性和噪声等与记忆相关的挑战。

论文信息
作者 Pouya Pezeshkpour, Estevam Hruschka
发布日期 2026-02-02
arXiv ID 2602.02760
相关性评分 7/10 (相关)