Agent Memory 流式视频理解
摘要

将多模态大语言模型(MLLMs)从离线处理转向在线流式视频理解对持续感知至关重要。然而,现有方法缺乏灵活适应性,导致细节不可逆丢失与上下文碎片化。为此,本文提出FreshMem——一种受大脑对数感知与记忆巩固机制启发的频域-空间混合记忆网络。FreshMem通过两个协同模块实现短期保真与长期连贯性的统一:多尺度频域记忆(MFM)将溢出帧投影为代表性频率系数,并结合残差细节重建全局历史“概要”;空间缩略图记忆(STM)则通过自适应压缩策略将连续流离散为情节簇,并提炼为高密度空间缩略图。大量实验表明,FreshMem在无需训练的情况下显著提升Qwen2-VL基线,在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能增益,优于多个全微调方法。

AI 推荐理由

论文提出新型混合记忆架构FreshMem,核心聚焦于流式视频理解中的记忆机制设计。

论文信息
作者 Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin et al.
发布日期 2026-02-02
arXiv ID 2602.01683
相关性评分 9/10 (高度相关)