无需持续监督的Agent：挑战与机遇

Agent监督行动轨迹人机交互任务验证

摘要

为了实现人类对Agent系统的监督，通常需要提供推理和行动步骤的轨迹。设计出信息量适中、不过于繁杂的轨迹仍然是一个关键挑战。通过三项针对计算机用户代理的用户研究，我们调查了基本行动轨迹在验证中的效用，探索了三种替代方案，并测试了一种新型界面在问答任务中发现错误的影响。如预期所见，当前方法较为繁琐，限制了其有效性。然而，我们提出的界面设计减少了参与者寻找错误所需的时间。尽管参与者报告了更高的决策信心，但最终准确性并未显著提高。因此，我们的研究揭示了对Agent系统进行人工验证的挑战，包括管理内置假设、用户主观且变化的正确性标准，以及沟通Agent过程的重要性与不足。

AI 推荐理由

论文探讨了Agent系统中任务执行过程的可验证性，涉及规划与行动步骤的追踪，属于规划能力相关研究。

论文信息

作者 Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi et al.

发布日期 2026-02-18

arXiv ID 2602.16844