对语言模型代理目标导向性的行为与表征评估

目标导向性任务规划内部表征分析语言模型代理

摘要

理解代理的目标有助于解释和预测其行为，但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与模型内部表征可解释性分析的框架，用于评估代理的目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例，从行为上评估其在不同网格大小、障碍物密度和目标结构下的表现，发现其性能随任务难度增加而提升，并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探测方法解码代理对环境状态和多步行动计划的内部表征，发现该代理非线性地编码了一个粗略的空间地图，保留了与其位置和目标位置相关的任务相关线索；其行为与这些内部表征基本一致；推理过程则重新组织这些信息，从更广泛的环境结构线索转向支持即时行动选择的信息。研究结果表明，仅靠行为评估不足以描述代理如何表示和追求其目标，还需进行内省分析。

AI 推荐理由

论文重点研究了Agent的目标导向行为与多步计划生成，涉及任务规划和目标导向行为的评估。

论文信息

作者 Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.

发布日期 2026-02-09

arXiv ID 2602.08964