像人类一样阅读：通过可并行的精读与略读压缩上下文

摘要

大语言模型（LLMs）在多种任务中表现出卓越能力，但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM（Read As HuMan）框架，借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留，低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器，在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界，引入基于正负查询-片段对的对比学习目标。实验表明，RAM在多个问答与摘要基准上优于现有方法，并在长输入（平均16K，最长32K）上实现最高12倍的端到端加速。

AI 推荐理由

提出上下文压缩机制，间接优化Agent的长期记忆处理效率。

论文信息

作者 Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.

发布日期 2026-02-02

arXiv ID 2602.01840