摘要
理解代理的目标有助于解释和预测其行为,但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与模型内部表征可解释性分析的框架,用于评估代理的目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例,从行为上评估其在不同网格大小、障碍物密度和目标结构下的表现,发现其性能随任务难度增加而提升,并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探测方法解码代理对环境状态和多步行动计划的内部表征,发现该代理非线性地编码了一个粗略的空间地图,保留了与其位置和目标位置相关的任务相关线索;其行为与这些内部表征基本一致;推理过程则重新组织这些信息,从更广泛的环境结构线索转向支持即时行动选择的信息。研究结果表明,仅靠行为评估不足以描述代理如何表示和追求其目标,还需进行内省分析。
AI 推荐理由
论文重点研究了Agent的目标导向行为与多步计划生成,涉及任务规划和目标导向行为的评估。
论文信息