摘要
长期工作流代理对于真正自主系统的实现至关重要。其可靠执行依赖于在模糊情境下进行推理并寻求澄清的能力。然而,目前缺乏可扩展且与任务无关的框架来系统地整理和衡量模糊性对自定义工作流的影响。本文提出LHAW(长期增强型工作流),一种模块化、数据集无关的合成流程,通过系统地从目标、约束、输入和上下文四个维度移除信息,将任何明确指定的任务转化为可控的模糊变体。与依赖LLM预测模糊性的方法不同,LHAW通过实证代理试验验证变体,并根据终端状态差异将其分类为关键性、发散性或良性。我们发布了285个任务变体,并进行了正式分析,测量当前代理在模糊环境下的检测、推理和解决模糊性能力。LHAW提供了首个针对长期场景中代理澄清行为的成本敏感评估框架,有助于开发可靠的自主系统。
AI 推荐理由
论文聚焦于Agent在长期任务中处理模糊性问题的推理能力,提出系统化评估框架。
论文信息