上下文压缩 长上下文处理
摘要

大语言模型(LLMs)在多种任务中表现出卓越能力,但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM(Read As HuMan)框架,借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留,低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器,在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界,引入基于正负查询-片段对的对比学习目标。实验表明,RAM在多个问答与摘要基准上优于现有方法,并在长输入(平均16K,最长32K)上实现最高12倍的端到端加速。

AI 推荐理由

提出上下文压缩机制,间接优化Agent的长期记忆处理效率。

论文信息
作者 Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.
发布日期 2026-02-02
arXiv ID 2602.01840
相关性评分 6/10 (相关)