摘要
大语言模型(LLMs)在多种任务中表现出卓越能力,但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM(Read As HuMan)框架,借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留,低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器,在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界,引入基于正负查询-片段对的对比学习目标。实验表明,RAM在多个问答与摘要基准上优于现有方法,并在长输入(平均16K,最长32K)上实现最高12倍的端到端加速。
AI 推荐理由
提出上下文压缩机制,间接优化Agent的长期记忆处理效率。
论文信息