Agent监督 行动轨迹 人机交互 任务验证
摘要

为了实现人类对Agent系统的监督,通常需要提供推理和行动步骤的轨迹。设计出信息量适中、不过于繁杂的轨迹仍然是一个关键挑战。通过三项针对计算机用户代理的用户研究,我们调查了基本行动轨迹在验证中的效用,探索了三种替代方案,并测试了一种新型界面在问答任务中发现错误的影响。如预期所见,当前方法较为繁琐,限制了其有效性。然而,我们提出的界面设计减少了参与者寻找错误所需的时间。尽管参与者报告了更高的决策信心,但最终准确性并未显著提高。因此,我们的研究揭示了对Agent系统进行人工验证的挑战,包括管理内置假设、用户主观且变化的正确性标准,以及沟通Agent过程的重要性与不足。

AI 推荐理由

论文探讨了Agent系统中任务执行过程的可验证性,涉及规划与行动步骤的追踪,属于规划能力相关研究。

论文信息
作者 Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi et al.
发布日期 2026-02-18
arXiv ID 2602.16844
相关性评分 7/10 (相关)