Persona2Web：基于用户历史的上下文推理个性化网络代理基准测试

个性化代理上下文推理用户历史建模模糊查询处理基准测试

摘要

大型语言模型已推动了网络代理的发展，但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节，实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战，我们提出了Persona2Web，这是首个用于评估真实开放网络中个性化网络代理的基准测试，基于澄清以实现个性化的原理，要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包括：（1）揭示长期跨度内隐含偏好的用户历史；（2）需要代理推断隐含用户偏好的模糊查询；（3）一个注重推理的评估框架，支持对个性化的细粒度评估。我们在多种代理架构、主干模型、历史访问方案以及不同模糊程度的查询上进行了广泛实验，揭示了个性化网络代理行为中的关键挑战。为保证可复现性，我们的代码和数据集已公开在https://anonymous.4open.science/r/Persona2Web-73E8。

AI 推荐理由

论文聚焦于基于用户历史的上下文推理，强调个性化代理在模糊查询下的推理能力，属于推理能力的核心研究。

论文信息

作者 Serin Kim, Sangam Lee, Dongha Lee

发布日期 2026-02-19

arXiv ID 2602.17003