上下文压缩 个性化LLM 注意力机制 记忆优化
摘要

将大型语言模型(LLMs)个性化到特定用户需要整合大量的交互历史和用户资料,但由于输入令牌限制,这在实际应用中面临高推理延迟和API成本的问题。现有方法依赖启发式策略,如选择近期交互或提示摘要模型压缩用户资料,但这些方法未能考虑LLMs内部对不同资料部分的处理与优先级。本文研究LLMs的注意力模式是否能有效识别重要的个性化信号,用于智能上下文压缩。初步研究表明,LLMs的注意力模式自然揭示了关键信号,且微调可增强其区分相关信息的能力。基于此,本文提出Attn-GS框架,利用标记模型的注意力反馈标记重要句子,再指导压缩模型生成高质量、任务相关的压缩用户上下文。实验表明,Attn-GS在多种任务、令牌限制和设置下显著优于各种基线方法,在性能接近使用完整上下文的同时,减少令牌使用量达50倍。

AI 推荐理由

论文聚焦于LLM的记忆机制,通过注意力引导上下文压缩以提升个性化效果,属于记忆机制的核心研究。

论文信息
作者 Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang et al.
发布日期 2026-02-08
arXiv ID 2602.07778
相关性评分 9/10 (高度相关)