目标导向性 任务规划 内部表征分析 语言模型代理
摘要

理解代理的目标有助于解释和预测其行为,但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与模型内部表征可解释性分析的框架,用于评估代理的目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例,从行为上评估其在不同网格大小、障碍物密度和目标结构下的表现,发现其性能随任务难度增加而提升,并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探测方法解码代理对环境状态和多步行动计划的内部表征,发现该代理非线性地编码了一个粗略的空间地图,保留了与其位置和目标位置相关的任务相关线索;其行为与这些内部表征基本一致;推理过程则重新组织这些信息,从更广泛的环境结构线索转向支持即时行动选择的信息。研究结果表明,仅靠行为评估不足以描述代理如何表示和追求其目标,还需进行内省分析。

AI 推荐理由

论文重点研究了Agent的目标导向行为与多步计划生成,涉及任务规划和目标导向行为的评估。

论文信息
作者 Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.
发布日期 2026-02-09
arXiv ID 2602.08964
相关性评分 9/10 (高度相关)