RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
Jialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang et al.
基于大语言模型的深度研究智能体多采用ReAct框架,其线性设计难以回溯早期状态、探索替代路径或在长上下文中保持全局感知,易陷入局部最优与冗余搜索。本文提出Re-TRAC框架,通过在每条轨迹后生成结构化状态表示,汇总证据、不确定性、失败原因及后续计划,并以此引导后续轨迹,实现跨轨迹探索、迭代反思与全局信息驱动的规划,将研究重构为渐进式过程。实验表明,Re-TRAC在BrowseComp上相较ReAct提升15–20%;针对小模型引入Re-TRAC感知的监督微调,达到同规模SOTA性能。此外,工具调用与token消耗随轮次单调下降,表明其通过跨轨迹反思实现高效定向探索。
Agent Memory
Trajectory Compression
提出跨轨迹状态表示以支持迭代反思与全局规划,属记忆机制关键应用。
分享
夯
0
拉
0
More Than a Quick Glance: Overcoming the Greedy Bias in KV-Cache Compression
Aryan Sood, Tanvi Sharma, Vansh Agrawal
尽管大语言模型(LLMs)理论上支持超长上下文窗口,但其实际部署受限于键值(KV)缓存内存的线性增长。现有压缩策略虽通过剪枝机制缓解该问题,却常以牺牲语义召回为代价换取内存效率。本文提出LASER-KV(基于精确局部敏感哈希的层累积选择框架),在严格累积预算策略下探索KV压缩极限。不同于固定摘要大小的方法,该框架采用由保护除数(n)控制的分块累积策略,有效分离压缩效应与滑动窗口伪影。在Babilong基准上的实验表明,先前方法在多种长上下文任务中性能下降15–30%,而LASER-KV在128k上下文长度下保持稳定,准确率最高提升10%。研究挑战了“注意力分数足以作为token效用代理”的主流假设。
KV缓存压缩
长上下文建模
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
分享
夯
0
拉
0
Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models
Xindian Ma, Yidi Lu, Peng Zhang, Jing Zhang
将视觉信息融入大语言模型催生了多模态大语言模型(MLLMs),但Transformer架构的二次方内存与计算开销仍是瓶颈。现有KV缓存驱逐策略未能处理视觉与文本token间异构的注意力分布,导致效率低下或性能下降。本文提出分层自适应驱逐(HAE)框架,通过预填充阶段的双注意力剪枝(利用视觉token稀疏性与注意力方差)和受操作系统回收站启发的动态解码驱逐策略,优化MLLM中文本-视觉token交互。HAE在各层最小化KV缓存使用,通过索引广播降低计算开销,并在理论上保证优于贪心策略的信息完整性与更低误差界。实验表明,在Phi3.5-Vision-Instruct模型上,HAE在图像理解任务中减少41% KV缓存内存(准确率仅下降0.3%),并在故事生成任务中实现1.5倍推理加速且保持输出质量。
KV缓存管理
多模态大语言模型
聚焦KV缓存管理,属LLM内存优化关键机制,但非通用Agent Memory架构。
分享
夯
0
拉
0
Scaling Search-Augmented LLM Reasoning via Adaptive Information Control
Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri
搜索增强型推理智能体通过多步推理与外部信息检索交替进行,但无约束的检索常导致冗余证据、上下文过载及学习不稳定。现有方法依赖基于结果的强化学习(RL),对信息获取调控指导有限。本文提出DeepControl框架,基于形式化的信息效用概念——衡量在给定推理状态下检索证据的边际价值——引入检索延续性与粒度控制机制,动态决定何时继续或停止检索以及扩展多少信息。通过退火控制策略,使智能体在训练中内化高效的信息获取行为。在七个基准上的实验表明,该方法显著优于强基线,在Qwen2.5-7B和Qwen2.5-3B上平均性能分别提升9.4%和8.6%,凸显自适应信息控制对复杂现实信息环境中扩展搜索增强型智能体的重要性。
信息检索控制
搜索增强推理
聚焦信息获取控制,涉及记忆检索机制但非核心记忆架构。
分享
夯
0
拉
0
You Need an Encoder for Native Position-Independent Caching
Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen
大语言模型(LLMs)的键值(KV)缓存基于前缀,难以高效处理任意顺序检索的上下文。位置无关缓存(PIC)虽被提出以解除位置约束并支持KV复用,但现有方法常导致显著精度下降。本文通过在主流仅解码器LLM中重新引入编码器,并显式训练其支持PIC,提出原生PIC方案。同时开发了COMB——一种兼容现有推理框架的PIC感知缓存系统。实验表明,COMB在保持相当精度的前提下,将首Token生成时间(TTFT)降低51–94%,吞吐量提升3倍,并在DeepSeek-V2-Lite-Chat上验证了其通用性。
KV缓存
位置无关缓存
聚焦KV缓存优化,属LLM推理内存机制关键改进。
分享
Code
夯
0
拉
0
A State-Transition Framework for Efficient LLM Reasoning
Liang Zhang, Yu Zhao, Longyue Wang, Tianqi Shi, Weihua Luo et al.
尽管长链式思维(CoT)推理显著提升了大语言模型(LLMs)在复杂推理任务上的性能,但生成长CoT序列带来的高昂计算与内存开销限制了其效率与实用性。现有方法通常通过压缩CoT序列提升效率,但这与测试时扩展相冲突,制约了模型的推理能力。本文提出一种高效推理框架,将LLM的推理过程建模为状态转移过程:首先利用线性注意力机制估计记录历史推理信息的“推理状态”;随后基于查询提示与该状态执行当前推理步骤并更新状态。借助线性注意力,当前步骤中的每个token可直接从状态中检索相关历史信息,无需显式关注先前步骤的token,从而将注意力计算复杂度从二次降至线性,大幅提升推理效率。此外,本文还提出基于状态的推理策略以缓解噪声推理步骤导致的过度思考问题。大量实验表明,该框架不仅提高了LLM的推理效率,还增强了其推理性能。
状态记忆
高效推理
提出状态转移机制显式建模并维护历史推理信息,属于记忆机制的关键应用。
分享
夯
0
拉
0
MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI
Takahito Nakajima
Takahito Nakajima (Diagnostic Imaging and Interventional Radiology, Institute of Medicine, University of Tsukuba)
背景:截至2026年,大语言模型(LLMs)已具备专家级医学知识,但作为自主“临床智能体”部署仍受限。现有电子病历(EMR)及FHIR等标准面向人类设计,导致“上下文错配”:AI智能体接收碎片化数据,需依赖概率推理(如RAG)重建病史,易产生幻觉且难以审计。方法:我们提出MedBeads——一种面向智能体的原生数据基础设施,将临床事件表示为不可变的“珠子”(Beads),构成Merkle有向无环图(DAG)节点,并通过密码学方式引用因果前驱。该“一次写入、多次读取”架构使篡改在数学上可检测。我们实现了包含Go核心引擎、Python中间件(用于LLM集成)和React可视化界面的原型系统。结果:基于合成数据成功验证工作流;FHIR到DAG的转换将扁平资源重构为因果图;广度优先搜索(BFS)上下文检索算法以O(V+E)复杂度遍历相关子图,支持实时决策;篡改证据由设计保障;可视化通过显式因果链提升临床理解。结论:MedBeads通过从概率检索转向确定性图遍历、从可变记录转向不可变链,解决了“上下文错配”,为“可信医疗AI”提供基础。其结构化Bead格式构成高效、面向AI的“原生语言”。项目已开源以推动面向智能体的数据标准发展。
Agent Memory
Immutable Data Structure
提出面向Agent的不可变数据基底,解决上下文记忆的完整性与可追溯性问题。
分享
夯
0
拉
0
The Keyhole Effect: Why Chat Interfaces Fail at Data Analysis
Mohan Reddy
聊天界面已成为AI辅助数据分析的默认交互方式,但对于多步骤、状态依赖的分析任务而言,这是一种错误选择。本文基于Woods(1984)提出的“钥匙孔效应”——即通过狭窄视口观察大型信息空间所引发的认知代价——指出聊天界面通过五种机制系统性地损害分析表现:(1)持续内容替换干扰海马体空间记忆;(2)隐藏状态变量超出工作记忆容量(负载下约4个组块);(3)强制语言化引发言语遮蔽,削弱视觉模式识别;(4)线性文本流阻碍认知外化与探索性操作;(5)序列化惩罚随数据维度增加而加剧。作者形式化认知超载为O = max(0, m - v - W),并提出八种混合设计模式以缓解上述问题。
认知负荷
工作记忆
深入探讨工作记忆与空间记忆在Agent交互中的认知负荷机制。
分享
夯
0
拉
0
HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures
Fangxin Liu, Qinghua Zhang, Hanjing Shen, Qinghua Zhang, Zhibo Liang et al.
Fangxin Liu (Shanghai Jiao Tong University, Shanghai, China) | Qinghua Zhang (Huawei Technologies Co., Ltd., China) | Hanjing Shen (Shanghai Jiao Tong University, Shanghai, China)
随着大语言模型(LLMs)向长上下文推理和稀疏架构演进,其内存需求已远超单设备HBM容量。尽管新兴SuperNode架构通过高带宽互连提供TB级共享内存池,现有软件栈仍难以高效利用该硬件。本文提出SuperNode内存管理框架HyperOffload,采用编译器辅助的图驱动方法,将远程内存访问显式建模为计算图中的操作,专为分层SuperNode架构设计。该框架在编译器中间表示中引入缓存算子以表达数据移动,实现对张量生命周期与执行依赖的全局静态分析,并据此开发执行顺序优化算法,在计算密集区域隐藏远程内存延迟。在MindSpore中实现后,实验表明该方法在推理任务中最高可降低26%的峰值设备内存占用,同时保持端到端性能。
大语言模型
内存管理
聚焦LLM内存管理,虽非专为Agent设计,但机制高度相关。
分享
夯
0
拉
0
Cross-Modal Memory Compression for Efficient Multi-Agent Debate
Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao et al.
多智能体辩论可提升推理质量并减少幻觉,但随着辩论轮次和智能体数量增加,上下文迅速膨胀。保留完整文本历史会导致令牌使用超出上下文限制,并常需重复摘要,带来额外开销与信息损失。本文提出DebateOCR——一种跨模态压缩框架,将冗长的文本辩论记录替换为紧凑的图像表示,并通过专用视觉编码器在后续轮次中加以利用。该方法可将通常达数万至数十万令牌的历史压缩92%以上,在多个基准上显著降低计算成本并加速推理。理论分析表明,智能体间的多样性有助于恢复被省略的信息:尽管单个压缩历史可能丢失细节,但聚合多个智能体的压缩视图可使集体表征以指数级高概率逼近信息瓶颈。
记忆压缩
多智能体系统
提出跨模态记忆压缩机制,显著优化多智能体辩论中的记忆存储与使用效率。
分享
夯
0
拉
0
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience
Zhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu et al.
Qipeng Wang (Gaoling School of Artificial
IntelligenceRenmin University of ChinaBeijingChina) | Weijie Yu (School of Information Technologyand ManagementUniversity of International Business and EconomicsBeijingChina)
基于大语言模型的深度搜索智能体在多步检索、推理和长周期任务执行中展现出强大能力,但其实际失败常源于缺乏对不确定环境下推理与检索状态的监控与调节机制。受认知神经科学启发,人类元认知具有分层结构,结合快速异常检测与选择性触发的经验驱动反思。本文提出DS-MCM框架,在深度搜索中嵌入显式的分层元认知监控机制:包含快速一致性监控器(轻量级检查外部证据与内部推理置信度的一致性)和慢速经验驱动监控器(基于历史智能体轨迹中的经验记忆选择性激活以指导纠正干预)。该机制直接嵌入推理-检索循环,决定何时干预及如何利用先验经验指导修正。在多个深度搜索基准和主干模型上的实验表明,DS-MCM显著提升性能与鲁棒性。
Agent Memory
Metacognition
论文核心引入基于经验记忆的监控机制,Memory是关键组成部分。
分享
夯
0
拉
0
EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning
Yufei He, Juncheng Liu, Zhiyuan Hu, Yulin Chen, Yue Liu et al.
当前主流医疗AI采用不切实际的“一次性”诊断模式,而真实临床诊断是一个迭代过程,医生需依次提问和安排检查以高效获取信息。为此,作者提出新基准Med-Inquire,基于真实病例模拟多轮诊断,通过Patient与Examination智能体隐藏完整病历,迫使诊断智能体主动获取信息。为应对该挑战,作者设计了EvoClinician——一种在测试时自演化的智能体,其核心为“诊断-评分-演化”循环:Actor执行诊断;Process Grader评估每步操作的临床价值与资源效率;Evolver据此反馈演化Actor的提示与记忆。实验表明,EvoClinician优于持续学习基线及其他自演化智能体。
Agent Memory
Medical Diagnosis
论文核心机制包含通过演化更新Agent的记忆,Memory是策略优化的关键组成部分。
分享
Code
夯
0
拉
0
Large Language Model Agents Are Not Always Faithful Self-Evolvers
Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao et al.
自我进化的大型语言模型(LLM)智能体通过积累和复用过往经验持续提升性能,但其是否真正依赖这些经验指导行为尚不明确。本文首次系统研究了自进化LLM智能体中“经验忠实度”——即智能体决策对其所获经验的因果依赖性。通过对原始与压缩形式经验进行受控因果干预,我们在10种LLM主干模型和9个环境中全面评估了四种代表性框架。研究发现显著不对称现象:智能体始终依赖原始经验,却常忽视或误读压缩经验,即使后者是唯一可用信息。该现象在单/多智能体设置及不同模型规模下均存在。根源在于压缩内容的语义局限、内部处理偏差抑制经验使用,以及预训练先验已足够应对的任务场景。结果挑战了当前自进化方法的假设,强调需更忠实可靠的经验整合机制。
经验忠实度
自进化智能体
聚焦LLM Agent对经验(记忆)的依赖性与忠实度,属记忆使用机制研究。
分享
夯
0
拉
0
Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model
Xiang Li, Ning Yan, Masood Mortazavi
尽管大语言模型(LLMs)展现出强大的零样本推理能力,但其作为具身智能体在长视野任务规划中仍面临根本挑战。标准LLM规划器常因上下文窗口限制或生成违反环境约束的幻觉转移而难以维持策略一致性。本文提出GiG框架,采用“图中图”架构组织智能体记忆:利用图神经网络(GNN)将环境状态编码为嵌入,并在经验记忆库中构建动作连接的执行轨迹图;通过聚类这些图嵌入,实现结构感知的先验知识检索,使当前决策能锚定于相关历史结构模式。此外,引入新颖的有界前瞻模块,结合符号转移逻辑增强基于记忆的动作投射能力。在Robotouille同步/异步及ALFWorld三个基准上,该方法以相当或更低计算成本显著超越现有最优基线。
Agent Memory
Embodied Planning
提出基于图结构的经验记忆库,用于存储和检索执行轨迹,是规划中的关键记忆机制。
分享
夯
0
拉
0
Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems
Ruiwen Zhou, Maojia Song, Xiaobao Wu, Sitao Cheng, Xunjian Yin et al.
Ruiwen Zhou (National University of Singapore)
多智能体系统中的个体智能体常因盲目顺从而缺乏鲁棒性。本文指出该问题源于谄媚倾向及对同伴可靠性评估能力不足。为此,作者形式化了“历史感知引用”学习问题,将同伴的历史交互作为额外输入,使智能体能在不确定时依据可信同伴进行学习。该方法将任务从评估同伴推理质量转变为基于交互历史估计其可靠性。作者提出认知上下文学习(ECL)框架,通过显式构建同伴历史档案来调节预测,并结合强化学习与辅助奖励进行优化。实验表明,ECL使Qwen 3-4B小模型性能超越无历史感知的8倍大模型(Qwen 3-30B),并使前沿模型达到近100%准确率,且在多种多智能体配置中具有良好泛化能力。
多智能体系统
信任建模
利用历史交互构建记忆以评估同伴可靠性,属记忆关键应用。
分享
夯
0
拉
0
Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li et al.
Animesh Sinha (Meta)
对话式图像生成要求模型在多轮交互中遵循用户指令,并以累积的图文聊天历史为依据。现有方法多采用马尔可夫假设,仅依赖最新图像,忽略长程历史。本文提出非马尔可夫设定,支持用户回溯早期状态、撤销修改或引用多轮前引入的实体。为此,作者构建了包含回滚编辑和基于名称的跨轮个性化等非马尔可夫数据;设计了带token级缓存的历史条件化训练与推理框架,防止身份漂移;并引入基于重建的DiT解码器与多阶段微调策略,提升图像保真度与可编辑性。实验表明,该方法显著增强多轮一致性与指令遵循能力,同时保持单轮编辑性能。
多模态大语言模型
对话记忆
非马尔可夫交互
图像生成
论文聚焦多轮对话中对历史状态的长期依赖与检索,涉及记忆机制的关键应用。
分享
夯
0
拉
0
Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning
Zeyu Xing, Xing Li, Hui-Ling Zhen, Mingxuan Yuan, Sinno Jialin Pan
KV缓存通常仅用于加速自回归解码,但其编码的上下文信息可零成本复用于下游任务。本文提出将KV缓存视为一种轻量级表征,无需重新计算或存储完整隐藏状态。尽管弱于专用嵌入,KV衍生表征在两项关键应用中表现优异:(i) 嵌入链(Chain-of-Embedding),在Llama-3.1-8B-Instruct和Qwen2-7B-Instruct上达到竞争性甚至更优性能;(ii) 快/慢思维切换(Fast/Slow Thinking Switching),在Qwen3-8B和DeepSeek-R1-Distil-Qwen-14B上实现自适应推理,最多减少5.7倍的token生成,且精度损失极小。研究确立了KV缓存作为采样与推理的有效免费基底,为大语言模型推理中的表征复用开辟新方向。
KV缓存
推理优化
将KV缓存作为轻量级记忆表征用于推理与采样,属记忆机制的重要应用。
分享
Code
夯
0
拉
0
MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation
Qihang Yu, Kairui Fu, Zhaocheng Du, Yuxuan Si, Kaiyuan Li et al.
Qihang Yu (Zhejiang UniversityHangzhouChina) | Kairui Fu (Zhejiang UniversityHangzhouChina) | Zhaocheng Du (Huawei Noah’s Ark LabHangzhouChina)
随着模型规模和数据量的增长,推荐系统面临高昂的计算开销,尤其在处理用户长行为序列时。现有方法常通过预存用户历史中间状态以避免重复计算,但忽视了由此带来的巨大内存开销。本文提出MALLOC,一个面向内存感知长序列压缩的综合基准,系统性地分类并评估适用于大规模序列推荐的内存管理技术。这些技术被集成至前沿推荐模型中,构建了一个可复现、易访问的评估平台。通过在准确性、效率与复杂度上的广泛实验,验证了MALLOC在推动大规模推荐系统发展中的整体可靠性。
序列推荐
内存压缩
聚焦推荐系统中的长序列内存压缩,属Memory关键应用但非Agent核心架构。
分享
夯
0
拉
0
PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri
大语言模型(LLMs)已推动组合优化问题(COPs)中自动化启发式设计(AHD)的发展,但现有框架依赖固定进化规则和静态提示模板,易导致短视生成、冗余评估及推理能力不足。本文提出PathWise——一种多智能体推理框架,将启发式生成建模为在蕴含图上的序贯决策过程,该图作为紧凑且具状态性的记忆结构,记录搜索轨迹并支持跨代信息复用或规避。系统包含策略智能体规划进化动作、世界模型智能体生成条件启发式 rollout,以及批评家智能体提供路由反思以总结历史经验,从而将LLM驱动的AHD从试错式进化转向基于状态感知的规划推理。实验表明,PathWise在多种COP上更快收敛至更优启发式,兼容不同LLM主干,并可扩展至更大规模问题。
Agent Memory
Automated Heuristic Design
提出基于蕴含图的状态化记忆机制,用于记录和复用搜索轨迹,是启发式生成的关键组件。
分享
夯
0
拉
0
HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs
Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini et al.
Jeanne Malécot∗,1,2{}^{*,~1,~2}, Hamed Rahimi∗,2{}^{*,~2}, Jeanne Cattoni3, Marie Samson2, Mouad Abrini2, Mahdi Khoramshahi2, Maribel Pino3, Mohamed Chetouani2 (1Institut Curie, Université Paris-Saclay2Institute of Intelligent Systems and Robotics (ISIR), Sorbonne University3Assistance Publique – Hôpitaux de Paris (AP-HP), Université Paris CitéParisFrance)
现有人机交互系统在多用户环境中常缺乏持续个性化与动态适应机制,限制了其在现实场景中的有效性。本文提出HARMONI——一种多模态个性化框架,利用大语言模型使社交辅助机器人能够管理长期多用户交互。该框架整合四个关键模块:(i)感知模块用于识别活跃说话者并提取多模态输入;(ii)世界建模模块维护环境与短期对话上下文表示;(iii)用户建模模块更新长期说话者特定档案;(iv)生成模块产出上下文相关且符合伦理的回应。通过在四个数据集上的广泛评估、消融实验及养老院真实场景用户研究,验证了HARMONI在说话者识别、在线记忆更新和伦理对齐个性化方面的优越性,在用户建模准确性、个性化质量与用户满意度上均优于基线LLM方法。
Agent Memory
多用户交互
论文核心包含长期用户建模与在线记忆更新机制,是Agent Memory的关键应用。
分享
夯
0
拉
0
ReCreate: Reasoning and Creating Domain Agents Driven by Experience
Zhezheng Hao, Hong Wang, Jian Luo, Jianqing Zhang, Yuyan Zhou et al.
大语言模型智能体正在重塑工业格局,但多数实用智能体仍依赖人工设计,因任务差异大而成本高昂。本文提出ReCreate——一种由经验驱动的自动领域智能体构建框架,系统性地利用智能体交互历史,从中提取成功或失败的原因及改进路径。该框架引入“智能体即优化器”范式,包含三大组件:按需调用的经验存储与检索机制、将执行经验映射为脚手架编辑的推理-创建协同流水线,以及将实例级细节抽象为可复用领域模式的分层更新策略。实验表明,ReCreate在多个领域中优于人工设计及现有自动化方法,即使从极简初始脚手架出发亦表现优异。
Agent Memory
Automated Agent Creation
论文核心利用交互历史(即经验记忆)驱动Agent创建与优化,涉及记忆存储、检索与抽象机制。
分享
夯
0
拉
0
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.
基于可验证奖励的强化学习(RLVR)虽能有效提升大语言模型的推理能力,但近期研究表明,即使使用虚假或错误的奖励,如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”:虚假RLVR导致答案词元的困惑度下降,但提示侧的语义连贯性却退化,表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程,作者识别出一个隐藏的“锚点-适配器”回路:中层(L18–20)的功能锚点触发记忆检索,后续层(L21+)的结构适配器则调整表征以适应该捷径信号。进一步实验表明,调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。
Agent Memory
Mechanistic Interpretability
论文揭示LLM在RLVR中通过记忆捷径绕过推理,深入分析记忆激活机制。
分享
Code
夯
0
拉
0
LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers
Aryan Karmore
在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储,但因注意力计算前需将INT4/INT8键反量化为FP16,未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索,可借鉴向量数据库压缩技术。提出LOOKAT方法,通过乘积量化与非对称距离计算,将键向量分解为子空间、学习码本,并利用查找表计算注意力,使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩(输出保真度95.7%)和32倍压缩(95.0%),无需修改架构或重新训练,且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK),在序列长度达1024时仍有效。
KV缓存压缩
内存高效推理
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
分享
夯
0
拉
0
Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends
Ye Wang, Jiaxing Chen, Hongjiang Xiao
近年来,随着大语言模型(LLMs)的快速发展,角色扮演语言智能体(RPLAs)成为自然语言处理与人机交互交叉领域的研究热点。本文系统综述了RPLAs的发展现状与关键技术,梳理了从早期基于规则的模板范式,经由语言风格模仿阶段,到以人格建模与记忆机制为核心的认知模拟阶段的技术演进路径。文章总结了支撑高质量角色扮演的关键技术路径,包括基于心理量表的角色建模、记忆增强的提示机制,以及基于动机-情境的行为决策控制。在数据层面,分析了角色专用语料库构建的方法与挑战;在评估方面,整理了涵盖角色知识、人格保真度、价值对齐与交互幻觉的多维评估框架及基准数据集。最后,展望了人格演化建模、多智能体协同叙事、多模态沉浸式交互及与认知神经科学融合等未来方向。
角色扮演智能体
记忆增强提示
论文将记忆机制作为角色扮演智能体认知模拟阶段的核心组成部分,并探讨记忆增强提示等关键技术。
分享
夯
0
拉
0
Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts
Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang et al.
强化学习(RL)已成为激发大语言模型(LLM)复杂推理能力的关键手段。然而,在长周期轨迹生成过程中存储键值(KV)缓存带来的巨大内存开销,成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段,但直接用于RL训练会引发严重的策略不匹配,导致性能崩溃。为此,本文提出Sparse-RL,通过稀疏感知拒绝采样与基于重要性的重加权机制,校正因压缩导致的信息损失所引入的离策略偏差,从而实现稳定训练。实验表明,Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能,并天然支持稀疏推理部署,提升模型鲁棒性。
LLM Agent Memory
强化学习
聚焦KV缓存压缩对RL训练的影响,属LLM Agent内存效率关键问题。
分享
夯
0
拉
0
SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation
Seoyeon Kim, Jaehyung Kim
大语言模型的个性化通常依赖静态检索或一次性适应,假设用户偏好恒定不变。然而,真实交互中用户兴趣持续演化,模型需在避免灾难性遗忘的同时适应偏好漂移。现有持续学习方法常因无差别更新噪声交互而失效,难以区分真实偏好变化与临时上下文。为此,本文提出SPRInG——一种新型半参数化持续个性化框架。训练阶段采用基于似然评分的漂移驱动选择性适应机制,仅在高新颖性交互上更新用户特定适配器,并将难学残差存入回放缓冲区;推理阶段通过严格相关性门控,结合参数化知识与检索历史进行logit插值。在长文本个性化生成基准上的实验表明,SPRInG显著优于现有基线,验证了其在现实持续个性化场景中的鲁棒性。
持续学习
个性化
半参数化记忆
偏好漂移
论文聚焦持续个性化中的记忆机制,结合参数与检索记忆应对偏好漂移。
分享
夯
0
拉
0
Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation
Xinze Li, Zhenghao Liu, Haidong Xin, Yukun Yan, Shuo Wang et al.
检索增强生成(RAG)通过引入外部知识提升大语言模型(LLM)性能。近期研究将迭代知识累积机制融入RAG,以逐步积累并优化与查询相关的知识,但缺乏连贯的组织结构,限制了知识表示的完整性与一致性。为此,本文提出PAGER——一种面向RAG的页面驱动自主知识表示框架。PAGER首先引导LLM为给定问题构建包含多个知识维度槽位的结构化认知提纲,随后迭代检索并精炼相关文档以填充各槽位,最终形成一个连贯的上下文页面,用以指导答案生成。在多个知识密集型基准和主干模型上的实验表明,PAGER显著优于现有RAG方法。进一步分析显示,其构建的知识表示质量更高、信息更密集,能更有效缓解知识冲突,并提升LLM对外部知识的利用效率。
检索增强生成
结构化记忆
知识表示
大语言模型
提出结构化知识表示框架,用于迭代构建和组织外部记忆,是Agent Memory的关键组成部分。
分享
Code
夯
0
拉
0
Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments
Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu et al.
当前大语言模型智能体主要采用被动响应范式,难以在动态环境中维持用户长期意图并自适应调整。本文提出一种主动式任务导向智能体新范式,通过两项核心能力实现:(i)基于对话历史自主构建触发条件的意图条件监控;(ii)在检测到有益环境更新时主动与用户交互。为此,我们构建了高质量数据合成流程,生成动态环境下的复杂多轮对话数据,并提出新基准ChronosBench以弥补动态任务导向交互评估标准的缺失。实验表明,现有主流模型在此类长期任务中表现不足,而基于合成数据微调的模型在包含用户意图变化的复杂任务上达到85.19%的任务完成率,验证了所提数据驱动策略的有效性。
Agent Memory
Proactive Interaction
论文聚焦长期意图维护,涉及记忆机制以支持主动监控与环境适应。
分享
夯
0
拉
0
PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind?
Yiwen Tu, Xuan Liu, Lianhui Qin, Haojian Jin
本文提出PRA,一种用于模拟个体用户如何基于现实新闻形成隐私关切的人工智能代理设计。区别于群体层面的情感分析,PRA融合隐私理论与认知理论,利用用户历史评论和上下文线索构建其个性化的“隐私心智”。该代理通过模拟有限理性的上下文过滤器动态激活相关隐私记忆,并生成反映用户在新隐私场景下可能反应的合成评论。研究还引入一个经校准的LLM-as-a-Judge评估器,依据既定隐私关切分类体系量化生成推理的忠实度。在Hacker News真实讨论数据上的实验表明,PRA在隐私关切预测上优于基线代理,并能跨AI、电商和医疗等领域迁移推理模式。
隐私推理
记忆建模
论文核心机制依赖隐私记忆的动态激活与重构,属Agent Memory关键应用。
分享
夯
0
拉
0
BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents
Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.
大语言模型(LLM)智能体通过结合规划、记忆和工具使用的多步工作流执行任务,这种设计虽提升了自主性,却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题,本文提出BackdoorAgent——一个模块化、阶段感知的统一框架,从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究,并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明,单阶段植入的触发器可在多步中持续存在并传播,其中记忆攻击在GPT基座模型上触发持久率达77.97%,凸显智能体工作流对后门威胁的脆弱性。
LLM Agent
Memory Attack
论文将记忆攻击作为三大核心攻击阶段之一,系统分析其在Agent工作流中的触发与传播机制。
分享
夯
0
拉
0
Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis
Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao et al.
从海量且嘈杂的网络信息中合成高质量商业报告对高风险商业决策至关重要。尽管现有深度研究智能体已取得显著进展,其生成报告在质量、可靠性和覆盖范围方面仍显不足。本文提出Mind2Report——一种模拟商业分析师的认知深度研究智能体,通过细粒度意图探测、动态网络检索与信息即时记录,并迭代合成报告。该系统采用无需训练的智能体工作流,为通用大语言模型(LLMs)引入动态记忆机制,以支持长篇幅认知任务。作者构建包含200个真实商业任务的QRC-Eval评测集,并设计综合评估策略。实验表明,Mind2Report优于OpenAI和Gemini等主流深度研究智能体。
Agent Memory
Dynamic Memory
提出动态记忆机制支持长程认知过程,是报告生成的关键组件。
分享
Code
夯
0
拉
0
Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions
Abhishek Rath
多智能体大语言模型(LLM)系统已成为复杂任务分解与协作求解的强大架构,但其长期行为稳定性尚未得到充分研究。本文提出“智能体漂移”概念,指智能体在长期交互中行为、决策质量及相互一致性逐渐退化的现象,并构建包含语义漂移、协调漂移和行为漂移的理论框架。作者设计了涵盖12个维度的智能体稳定性指数(ASI)以量化漂移,并通过仿真分析揭示其对任务准确率和人工干预需求的负面影响。为缓解该问题,论文提出三种策略:情景记忆巩固、漂移感知路由协议和自适应行为锚定,理论分析表明这些方法可显著降低漂移错误并维持系统吞吐量。
agent drift
episodic memory consolidation
提出情景记忆巩固作为缓解策略,Memory是关键组成部分。
分享
夯
0
拉
0
CangLing-KnowFlow: A Unified Knowledge-and-Flow-fused Agent for Comprehensive Remote Sensing Applications
Zhengchao Chen, Haoran Wang, Jing Yao, Pedram Ghamisi, Jun Zhou et al.
针对遥感数据处理缺乏统一端到端智能框架的问题,本文提出CangLing-KnowFlow,融合程序性知识库(PKB)、动态工作流调整机制与进化记忆模块。该系统基于1,008个专家验证的工作流案例指导任务规划,显著减少大模型幻觉;在运行失败时可自主诊断并重规划,其进化记忆模块持续从经验中学习,迭代提升性能。在包含324个工作流的新基准KnowFlow-Bench上,该方法在13种主流大模型上均优于Reflexion基线至少4%的任务成功率,展示了将专家知识转化为可适应、可验证流程的强大潜力。
Agent Memory
Remote Sensing
提出进化记忆模块,是系统关键组件但非唯一焦点
分享
夯
0
拉
0
Recommender systems: when memory matters
Aleksandra Burashnikova, Marianne Clausel, Massih-Reza Amini, Yury Maximov, Nicolas Dante
本文研究了长时记忆在包含用户隐式反馈的序列推荐系统可学习性中的作用。我们提出一种在线算法,其模型参数按用户逐块更新,每一块由一系列未点击项目后接一个点击项目构成。通过全面的实证评估表明,根据用户与系统交互中所包含的长时记忆程度进行筛选,可显著提升MAP和NDCG指标性能,尤其在大规模推荐系统训练场景下效果更为突出。
推荐系统
长时记忆
聚焦用户交互中的长时记忆对推荐系统性能的影响,属记忆机制应用研究。
分享
夯
0
拉
0
CRL-VLA: Continual Vision-Language-Action Learning
Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao et al.
在开放世界环境中,终身学习对于具身智能体至关重要,强化学习微调已被证明是使视觉-语言-动作(VLA)模型通过环境交互掌握灵巧操作的重要范式。因此,持续强化学习(CRL)是将VLA模型部署于终身机器人场景中的有前途的路径,但现有方法在保持旧技能(稳定性)和学习新技能(可塑性)之间的平衡仍面临巨大挑战。本文提出CRL-VLA框架,用于VLA模型的持续后训练,并具有严格的理论界限。我们推导出一个统一的性能边界,将稳定性-可塑性权衡与目标条件优势幅度联系起来,并由策略差异进行缩放。CRL-VLA通过非对称调节解决这一困境:限制先前任务的优势幅度,同时允许新任务的受控增长。这通过一种简单而有效的双评论家架构实现,该架构采用新的目标条件价值公式(GCVF),其中冻结的评论家锚定语义一致性,而可训练的估计器驱动适应。在LIBERO基准上的实验表明,CRL-VLA有效地协调了这些冲突目标,在防止遗忘和向前适应方面优于基线方法。
持续学习
视觉-语言-动作模型
强化学习
记忆管理
机器人学习
论文涉及持续学习中的稳定性与可塑性平衡,与Agent Memory机制密切相关。
分享
夯
0
拉
0
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces
Mingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang et al.
前沿语言模型已展现出强大的推理和长期工具使用能力。然而,现有的RAG系统未能充分利用这些能力,仍依赖于两种范式:(1)设计一种算法一次性检索段落并将其连接到模型输入中,或(2)预定义工作流程并提示模型逐步执行。这两种范式均不允许模型参与检索决策,从而限制了其随着模型改进而高效扩展的能力。本文提出了A-RAG,一种面向智能体的RAG框架,直接向模型暴露分层检索接口。A-RAG提供了三种检索工具:关键词搜索、语义搜索和块读取,使智能体能够跨多个粒度自适应地搜索和检索信息。在多个开放域问答基准测试中的实验表明,A-RAG在可比或更低的检索token数量下始终优于现有方法,证明了A-RAG有效利用模型能力并动态适应不同的RAG任务。我们进一步系统研究了A-RAG如何随模型规模和测试时计算量扩展。我们将发布我们的代码和评估套件以促进未来研究。
RAG
智能体
检索增强生成
分层检索
信息检索
论文提出A-RAG框架,通过分层检索接口增强模型的检索能力,与Agent Memory相关。
分享
夯
0
拉
0
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.
医学图像分割正从任务特定模型向通用框架发展。近期研究利用多模态大语言模型(MLLMs)作为自主代理,采用可验证奖励的强化学习(RLVR)来协调专用工具如Segment Anything Model(SAM)。然而,这些方法通常依赖单轮、僵化的交互策略,并缺乏训练过程中的过程级监督,限制了其对交互工具动态潜力的充分利用并导致冗余操作。为弥补这一不足,我们提出MedSAM-Agent框架,将交互式分割重新定义为多步骤自主决策过程。首先,我们引入一种混合提示策略以生成专家标注的轨迹,使模型能够内化类似人类的决策启发式和自适应优化策略。此外,我们开发了一个两阶段训练流程,结合多轮端到端结果验证与临床保真度过程奖励设计,以促进交互简洁性和决策效率。在6种医学模态和21个数据集上的广泛实验表明,MedSAM-Agent实现了最先进的性能,有效统一了自主医学推理与稳健的迭代优化。
医学图像分割
多模态大语言模型
强化学习
交互式分割
智能体训练
论文涉及多轮交互与过程级奖励机制,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Wenlei Shi et al.
通过扩展推理时的计算量,长链式推理(Chain-of-Thought)显著提升了模型的推理能力,但由于键值缓存线性增长和注意力复杂度二次增长,其面临实际限制。本文提出Accordion-Thinking,一种端到端框架,使LLM能够通过动态摘要自我调节推理步骤的粒度。该机制支持Fold推理模式,模型定期对其思考过程进行摘要并丢弃之前的思考,从而减少对历史token的依赖。我们应用强化学习进一步激励这一能力,发现Fold模式与Unfold模式之间的准确率差距在训练过程中逐渐缩小并最终消失。这表明模型学会了将关键推理信息编码为紧凑摘要,实现推理上下文的有效压缩。我们的Accordion-Thinker证明,在学习自压缩后,LLM可以在不牺牲解的质量的前提下,以极小的历史token开销处理复杂推理任务,并在48GB GPU内存配置下实现3倍的吞吐量,同时结构化的步骤摘要提供了可读的推理过程说明。
LLM推理
动态摘要
推理压缩
强化学习
Agent Memory
论文提出通过动态总结机制减少对历史token的依赖,与Agent Memory相关,但非唯一主题。
分享
夯
0
拉
0
DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference
Jiancai Ye, Jun Liu, Qingchen Li, Tianlang Zhao, Hanbin Zhang et al.
尽管键值(KV)缓存在高效大语言模型(LLM)推理中至关重要,但在长上下文场景下其内存占用不断增长,成为显著瓶颈,因此KV缓存压缩变得尤为重要。当前的压缩方法依赖于固定的分割策略,如固定间隔或预定义分隔符。然而,这种刚性分割在不同场景下会导致显著的精度下降(5.5%至55.1%),因为语义边界具有场景依赖性。为此,本文提出了一种名为DynSplit-KV的KV缓存压缩方法,通过动态识别分隔符实现语义对齐。该方法包括两个创新点:(1)一种基于重要性感知的动态分隔符选择策略,提升了49.9%的精度;(2)一种统一映射策略,将可变长度的语义块转换为固定长度格式,减少了4.9倍的推理开销。实验表明,DynSplit-KV在长上下文场景中实现了最高精度,并相比FlashAttention实现了2.2倍的速度提升和2.6倍的峰值内存减少。
KV Cache
语义分割
压缩算法
长上下文推理
论文聚焦KVCache压缩,与Agent Memory中的上下文管理密切相关,但非唯一主题。
分享
夯
0
拉
0
Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis
Abdelghny Orogat, Ana Rostam, Essam Mansour
多智能体LLM框架被广泛用于加速基于大语言模型的智能体系统开发。这些框架通过特定的架构结构来规范智能体之间的交互、信息存储和任务协调。然而,其对系统性能的影响尚不明确。本文提出了一种架构分类法,并开发了MAFBench统一评估套件,以在标准化执行流程下对多个能力进行联合评估。实验结果表明,框架级别的设计选择可能显著影响延迟、规划准确性和协调成功率。最后,作者将研究结果转化为具体的架构设计原则和框架选择指南,并提出了未来的研究方向。
多智能体系统
LLM框架
性能评估
记忆行为
论文涉及多智能体LLM框架中的记忆行为评估,是关键部分但非唯一主题。
分享
夯
0
拉
0
FedKRSO: Communication and Memory Efficient Federated Fine-Tuning of Large Language Models
Guohao Yang, Tongle Wu, Yuanxiong Guo, Ying Sun, Yanmin Gong
微调是将通用大语言模型(LLMs)适应到特定领域任务的关键。联邦学习(FL)作为一种隐私保护框架,在LLM微调中日益受到关注,但面临传输完整模型参数和计算完整梯度的高成本问题。尽管参数高效微调(PEFT)方法被广泛用于降低通信和内存成本,但通常会牺牲模型性能。本文提出FedKRSO(联邦K-种子随机子空间优化),一种在联邦环境中实现通信和内存高效微调的新方法。在FedKRSO中,客户端在服务器生成的共享随机低维子空间内更新模型以节省内存使用。此外,客户端在每轮联邦学习中仅发送沿子空间的模型更新累加器,从而实现高效的全局模型聚合和分发。通过这些策略,FedKRSO显著减少了通信和内存开销,同时克服了PEFT的性能限制,接近联邦全量微调的性能。在GLUE基准测试中的广泛实验表明,FedKRSO在多种联邦学习场景下均表现出优越的性能和较低的通信与内存开销,为资源受限边缘设备上的联邦LLM微调铺平了道路。
联邦学习
大语言模型
参数高效微调
内存优化
通信效率
论文提出FedKRSO方法,通过低维子空间减少内存和通信开销,与Agent Memory相关。
分享
夯
0
拉
0
DeltaEvolve: Accelerating Scientific Discovery through Momentum-Driven Evolution
Jiachen Jiang, Tianyu Ding, Zhihui Zhu
基于LLM的进化系统在自动化科学发现中展现出潜力,但现有方法如AlphaEvolve依赖完整的代码历史,导致上下文效率低下且进化指导较弱。本文将进化代理形式化为一个通用的期望最大化框架,在E步中语言模型生成候选程序,M步中系统根据评估反馈更新控制上下文。传统的完整代码快照作为M步实现方式存在冗余细节,削弱了核心算法思想的表达。为此,本文提出DeltaEvolve,一种动量驱动的进化框架,用结构化的语义差分代替完整代码历史,记录连续节点间修改如何及为何影响性能。由于程序通常可分解,语义差分包含许多可转移的有效组件,能更有效地推动改进。通过多级数据库和渐进披露机制组织语义差分,进一步减少输入标记数量。实验证明,该框架在多个科学领域任务中,相比基于完整代码的进化代理,能以更少的标记消耗发现更优解。
进化算法
语义差分
LLM代理
上下文优化
科学发现
论文提出DeltaEvolve框架,通过语义差分替代完整代码历史,优化进化过程中的上下文表示,与Agent Memory相关。
分享
夯
0
拉
0
Minimal Computational Preconditions for Subjective Perspective in Artificial Agents
Hongju Pae
本研究通过一个最小的、现象学驱动的内部结构来实现人工代理中的主观视角。该视角被实现为一个缓慢演变的全局潜在状态,它调节快速的策略动态,但不直接优化行为结果。在无奖励且存在制度转变的环境中,这种潜在结构表现出方向依赖性的滞后效应,而策略层面的行为则相对反应性较强。作者认为,这种滞后效应构成了机器系统中类似主观视角的可测量特征。
主观视角
潜在状态
滞后效应
Agent Memory
论文探讨了人工代理的主观视角,涉及潜在状态与记忆相关的滞后现象,属于Agent Memory相关研究。
分享
夯
0
拉
0
Joint Learning of Hierarchical Neural Options and Abstract World Model
Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy
构建能够通过组合现有技能来学习新技能的智能体是AI代理研究的长期目标。为此,本文探讨了如何高效地获取一系列技能,形式化为分层神经选项。然而,现有的无模型分层强化学习算法需要大量数据。我们提出了一种新的方法,称为AgentOWL(Option and World model Learning Agent),该方法以样本高效的方式联合学习一个抽象世界模型(同时对状态和时间进行抽象)以及一组分层神经选项。我们在一组以物体为中心的Atari游戏中进行了实验,结果表明,与基线方法相比,我们的方法在使用更少数据的情况下可以学习到更多的技能。
分层强化学习
世界模型
技能学习
样本效率
论文提出联合学习抽象世界模型与分层神经选项,涉及记忆机制,但非唯一主题。
分享
夯
0
拉
0
Provable Effects of Data Replay in Continual Learning: A Feature Learning Perspective
Meng Ding, Jinhui Xu, Kaiyi Ji
持续学习(CL)旨在使模型在一系列任务上进行训练,同时保持对先前任务的性能。该设置中的核心挑战是灾难性遗忘,即新学习会干扰旧知识。在各种缓解策略中,数据重放方法通过定期回顾过去样本被认为简单而有效,尤其是在内存约束较宽松的情况下。然而,关于全数据重放(训练过程中可以访问所有历史数据)的理论有效性仍鲜有研究。本文从特征学习的角度出发,提出了一种全面的理论框架来分析持续学习中的全数据重放训练。采用多视图数据模型,我们识别出信噪比(SNR)是影响遗忘的关键因素。针对跨M个任务的任务增量二分类问题,我们的分析验证了两个关键结论:(1)当后期任务的累积噪声主导早期任务的信号时,即使在全数据重放下仍可能发生遗忘;(2)随着信号积累,数据重放可以恢复早期任务,即使其初始学习表现较差。值得注意的是,我们发现了一个新的任务排序见解:优先处理高信号任务不仅有助于低信号任务的学习,还能防止灾难性遗忘。我们通过合成和现实世界的实验验证了这些理论发现,并可视化了不同信噪比和任务相关性条件下的信号学习与噪声记忆之间的相互作用。
持续学习
数据重放
特征学习
灾难性遗忘
信噪比
论文探讨了数据重放对持续学习中记忆的影响,与Agent Memory相关但非唯一主题。
分享
夯
0
拉
0
From Task Solving to Robust Real-World Adaptation in LLM Agents
Pouya Pezeshkpour, Estevam Hruschka
大型语言模型越来越多地被部署为专门的代理,用于规划、调用工具并在长时域内采取行动。然而,许多现有评估假设了一个“干净的接口”,其中动态是明确且稳定的,工具和传感器是可靠的,成功由单一显式目标衡量,这往往高估了其在现实世界中的准备程度。实际上,代理面临规则不明确、信号不可靠、环境变化以及隐含的多利益相关者目标。因此,挑战不仅是解决问题,而是在解决问题的同时进行适应:决定信任什么、想要什么、何时验证以及何时回退或升级。我们通过四种操作情境对部署相关的鲁棒性进行了压力测试:部分可观测性、动态环境、噪声信号和动态代理状态。我们在一个基于网格的游戏环境中对代理型LLM进行了基准测试,该游戏具有简单的目标但需要长时域执行。这些场景违反了“干净接口”的假设,但仍可解决,迫使代理推断规则、支付信息成本、适应环境和内部变化,并在噪声下谨慎行动。通过对五种最先进的LLM代理的测试,我们发现名义上的任务求解能力与类似部署的鲁棒性之间存在显著差距。随着网格大小和时间跨度的增加,性能通常下降,但排名不稳定:当策略与不确定性环境匹配时,较弱的模型可能击败较强的模型。尽管没有明确指示,代理仍然在完成度、效率和避免惩罚之间进行权衡,表明它们能够部分推断目标。消融实验和特征分析揭示了模型特定的敏感性和失败驱动因素,推动了在部分可观测性、噪声和非平稳性下的验证、安全动作选择和目标推断的研究。
LLM Agents
Robustness
Partial Observability
Dynamic Environments
Objective Inference
论文探讨了LLM Agent在复杂环境中的适应性,涉及部分可观测性和噪声等与记忆相关的挑战。
分享
夯
0
拉
0
ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters
Ujin Jeon, Jiyong Kwon, Madison Ann Sullivan, Caleb Eunho Lee, Guang Lin
近期的多LLM代理系统在提示优化和自动化问题求解方面表现出色,但许多系统在微调后保持求解器冻结或依赖静态偏好优化循环,这在长期任务中变得难以处理。我们提出了ATLAS(用于代理自进化的任务分布式学习),一个任务分布框架,该框架通过迭代开发轻量级研究代理,并将探索、超参数调整和参考策略管理等互补角色委托给专门的支持代理。我们的核心算法EvoDPO(进化直接偏好优化)能够自适应地更新阶段索引的参考策略。我们为概念漂移下的基于偏好的上下文老虎机提供了理论遗憾分析。此外,在非平稳线性上下文老虎机和科学机器学习(SciML)损失重新加权(以1D Burgers方程为例)上进行了实验。结果表明,ATLAS在稳定性与性能上优于静态单代理基线。
多LLM协作
自进化代理
偏好优化
上下文老虎机
论文涉及Agent的自进化机制和多LLM协作,与记忆相关但非核心主题。
分享
夯
0
拉
0
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si et al.
尽管大型语言模型(LLMs)在短期任务中表现出色,但将其扩展到长期目标代理工作流程仍面临挑战。核心瓶颈在于缺乏能够捕捉真实长期依赖结构和跨阶段演化动态的训练数据。现有合成方法要么局限于受模型分布约束的单一特征场景,要么需要高昂的人工标注成本,无法提供可扩展的高质量监督。本文通过重新审视现实世界中的软件演化过程,提出了一种基于Pull Request(PR)序列的数据合成方法。PR序列自然包含了长期学习所需的监督信号,将复杂目标分解为可验证的提交单元,并通过错误修复历史编码真实的优化模式。基于此,我们提出了daVinci-Agency,通过三个相互关联的机制系统地挖掘链式PR中的结构化监督:(1) 通过连续提交进行渐进式任务分解;(2) 通过统一的功能目标强制长期一致性;(3) 从真实的错误修复轨迹中实现可验证的优化。与独立处理每一步的合成轨迹不同,daVinci-Agency的PR基础结构天然保留了因果依赖和迭代优化,有助于教授持续的目标导向行为,并自然对齐项目级、全周期任务建模。
Agent Memory
数据合成
长期目标学习
软件演化
LLM微调
论文涉及长期目标导向行为的训练数据生成,与Agent Memory中的因果依赖和迭代优化相关。
分享
夯
0
拉
0
Fine-Tuning Language Models to Know What They Know
Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen
元认知是智能的重要组成部分,尤其涉及对自身知识的意识。虽然人类依赖共享的内部记忆来回答问题并报告其知识状态,但这种依赖在大型语言模型(LLMs)中仍鲜有研究。本研究提出了一种框架,使用双提示方法测量元认知能力 $d_{
m{type2}}'$,随后引入用于元认知对齐的进化策略(ESMA),以将模型的内部知识与其显式行为绑定。ESMA在多种未训练设置中表现出强大的泛化能力,表明模型参考自身知识的能力有所增强。此外,参数分析表明这些改进源于一组关键的稀疏修改。
元认知
知识对齐
LLM微调
内部记忆
论文探讨了LLM的元认知能力与知识状态,涉及模型内部知识与其行为的对齐,与Agent Memory相关。
分享
夯
0
拉
0
Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts
Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang
尽管多模态大语言模型取得进展,自主网页智能体在复杂动态网页界面上执行长周期任务仍面临挑战。现有方法常受限于元素定位不准、缺乏站点特定流程知识,以及在复杂DOM结构中长期任务跟踪与记忆不稳定。为此,本文提出Avenir-Web,在真实部署环境下于Online-Mind2Web基准上达到开源新SOTA。该系统结合混合定位专家、经验模仿规划以引入流程先验,并采用任务追踪清单与自适应记忆机制,实现跨多样化用户界面的鲁棒交互。实验表明,Avenir-Web显著优于先前开源智能体,性能媲美顶尖闭源模型。
Agent Memory
Web Agents
提出自适应记忆机制用于长期任务跟踪,是关键但非唯一核心。
分享
夯
0
拉
0
ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
Sharut Gupta, Phillip Isola, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja et al.
大语言模型(LLMs)能否仅通过上下文学习(ICL)而无需任何权重更新来掌握推理能力?尽管ICL样本效率高,但在复杂推理任务中需大量示例,而简单扩展上下文会因注意力成本剧增、性能饱和或下降而失效。本文提出ReasonCACHE,利用前缀调优将示例蒸馏为固定键值缓存,在不占用上下文窗口且不更新模型权重的前提下实现高效推理。在GPQA-Diamond等挑战性基准上,其性能优于标准ICL,并媲美甚至超越基于权重更新的方法,同时在数据效率、推理开销和可训练参数数量上更具优势。理论上,ReasonCACHE比低秩权重更新更具表达能力,因其绕过了输入秩对表达力的限制。
in-context learning
key-value cache
提出基于固定KV缓存的推理机制,涉及记忆存储与检索,但非以Agent Memory为核心目标。
分享
Code
夯
0
拉
0
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding et al.
近期自主大语言模型(LLM)智能体展现出通过与环境迭代交互提升性能的能力,本文将其定义为“测试时改进”(Test-Time Improvement, TTI)。然而,TTI成功或失败的内在机制尚不明确,现有评估指标难以刻画任务优化效率、错误行为后的适应能力,以及工作记忆对任务完成的具体效用。为此,本文提出TIDE(Test-time Improvement Diagnostic Evaluation)框架,该框架与智能体和环境无关,将TTI分解为三个相互关联的维度:(1)任务完成的整体时间动态,(2)性能是否受限于递归循环行为,(3)是否受累于累积记忆负担。大量实验表明,提升智能体性能不仅依赖内部推理扩展,更需显式优化智能体与环境的交互动态。
Agent Memory
Test-Time Improvement
论文聚焦TTI评估,将工作记忆作为关键维度之一进行分析。
分享
夯
0
拉
0
State Rank Dynamics in Linear Attention LLMs
Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin et al.
线性注意力大语言模型(LLMs)通过将上下文压缩为固定大小的状态矩阵,提供了一种高效的循环推理形式,实现常数时间推理。然而,该压缩状态的内部动态尚不清晰。本文对当前先进线性注意力模型的运行时状态动态进行了系统研究,揭示了一种称为“状态秩分层”的基本现象:不同注意力头在谱特性上呈现明显分化——一组头的有效秩趋近于零并持续振荡,另一组则迅速增长并收敛至上界。大量实验表明,这种动态在不同推理场景下高度一致,说明头的低秩或高秩属性是预训练阶段获得的固有结构特征,而非输入依赖的瞬态表现。进一步分析发现,低秩头对模型推理至关重要,而高秩头则具有显著冗余。基于此,作者提出联合秩范数剪枝策略,在零样本设置下减少38.9%的KV缓存开销,同时基本保持模型精度。
线性注意力
状态压缩
KV缓存优化
模型剪枝
研究线性注意力LLM的内部状态动态,涉及上下文压缩与KV缓存,属记忆机制关键部分。
分享
夯
0
拉
0
Edit Knowledge, Not Just Facts via Multi-Step Reasoning over Background Stories
Ya Gao, Kalle Kujanpää, Pekka Marttinen, Harri Valpola, Alexander Ilin
使人工智能系统(尤其是大语言模型)能够整合新知识并在推理中灵活应用,仍是一项核心挑战。现有知识编辑方法侧重于原子事实,虽提升事实回忆能力,却难以将新信息融入可跨情境使用的连贯框架。本文认为知识内化本质上是推理问题而非记忆问题,因此提出一种基于三原则的训练策略:首先,以连贯的背景故事引入新知识;其次,利用模型自生成的多跳问题进行多步推理训练;最后,通过知识蒸馏使学生模型在无法访问新信息的情况下内化教师的推理行为。实验表明,该策略能有效支持模型在推理中利用新知识,并在需融合多个新事实的复杂问题上表现卓越。
知识编辑
多步推理
聚焦知识内化与推理,涉及记忆整合但非直接研究记忆机制。
分享
夯
0
拉
0
FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning
Hongwei Yan, Guanglong Sun, Kanglei Zhou, Qian Li, Liyuan Wang et al.
通用持续学习(GCL)要求智能系统在无明确任务边界、单次遍历的非平稳数据流中持续学习。现有基于预训练模型的参数高效微调方法通常依赖多轮训练和显式任务提示,难以适用于GCL场景,且缺乏对专家参数分配与表征能力提升的针对性设计。受果蝇具有稀疏扩展与模块化集成特性的分层记忆系统启发,本文提出FlyPrompt框架,将GCL分解为专家路由与专家能力提升两个子问题,引入随机扩展的解析路由器实现样本级专家激活,并采用输出头的时间集成动态调整决策边界。实验表明,FlyPrompt在CIFAR-100、ImageNet-R和CUB-200上分别超越当前最优基线达11.23%、12.43%和7.62%。
持续学习
脑启发架构
受果蝇分层记忆系统启发,提出专家路由与集成机制,涉及记忆结构但非LLM Agent核心记忆研究。
分享
Code
夯
0
拉
0
Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation
Kwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo et al.
近期检索增强生成(RAG)研究从简单向量相似性转向结构感知方法,如HippoRAG,利用知识图谱(KG)和个性化PageRank捕捉多跳依赖。然而,此类方法存在“静态图谬误”:其转移概率在索引阶段固定,忽视了边相关性对查询的依赖性,导致语义漂移,使随机游走偏向高连接度“枢纽”节点,难以获取完整证据链。为此,本文提出CatRAG——一种上下文感知遍历框架,在HippoRAG 2基础上将静态KG转化为查询自适应导航结构,通过符号锚定、查询感知动态边权重调整及关键事实段落权重增强三项机制引导随机游走。在四个多跳基准上的实验表明,CatRAG显著提升推理完整性,有效弥合部分上下文检索与全证据链推理之间的差距。
检索增强生成
知识图谱
多跳推理
上下文感知
论文聚焦RAG中的检索机制,涉及记忆结构的动态构建与利用,但未直接研究Agent Memory架构。
分享
Code
夯
0
拉
0
VLM-Guided Experience Replay
Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor
近期大语言模型(LLMs)与视觉语言模型(VLMs)的发展为强化学习(RL)带来了强大的语义与多模态推理能力,有助于提升样本效率、高层规划与可解释性。尽管已有研究将LLMs和VLMs集成到RL的多个组件中,但作为存储与重用经验的核心组件——经验回放缓冲区仍未被充分探索。本文提出利用VLM指导回放缓冲区中经验的优先级排序,核心思想是使用一个冻结的预训练VLM(无需微调)作为自动评估器,识别并优先选择智能体经验中的高潜力子轨迹。在涵盖游戏与机器人、离散与连续动作空间的多种场景中,采用该方法的智能体相比现有方法平均成功率提升11–52%,样本效率提高19–45%。
经验回放
视觉语言模型
聚焦经验回放缓冲区的优先级机制,属记忆管理关键环节。
分享
夯
0
拉
0
COMI: Coarse-to-fine Context Compression via Marginal Information Gain
Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng et al.
大语言模型(LLMs)在多种任务中表现出色,但在长上下文场景中仍受限于计算低效与信息冗余。本文提出COMI——一种由粗到精的自适应上下文压缩框架,在高压缩率下联合优化语义相关性与多样性。我们引入边际信息增益(MIG)指标,定义为文本单元对查询的相关性减去其与其他单元的语义冗余,以此指导保留高相关、低冗余信息。该框架包含两个阶段:(1) 粗粒度分组重分配,依据组间MIG动态分配压缩率;(2) 细粒度词元融合,基于组内MIG加权合并词元以保留关键语义。在多个问答与摘要数据集上的实验表明,COMI显著优于现有方法,例如在NaturalQuestions上使用Qwen2-7B、32倍压缩下Exact Match提升约25个百分点。
上下文压缩
长上下文建模
聚焦上下文压缩以提升LLM长程记忆效率,属记忆相关关键技术。
分享
夯
0
拉
0
S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research
S1-NexusAgent Team
现代科学研究依赖大规模数据、复杂工作流和专业工具,现有大语言模型及工具型智能体因长期规划能力弱、目标维持不稳及缺乏持续学习机制而难以胜任。本文提出S1-NexusAgent——一种面向多学科科研的自进化智能体框架。该框架采用分层的Plan-and-CodeAct执行范式,通过双循环架构解耦全局科研规划与子任务级工具执行,支持Model Context Protocol(MCP),集成数千种跨学科科研工具,并通过意图感知的动态工具检索与热插拔机制实现异构工具高效编排。针对科研场景中的长上下文与大数据挑战,引入基于对象引用的稀疏上下文管理,实现子任务上下文隔离与中间结果压缩。在此基础上,Critic Agent自动评估完整执行轨迹,提炼高质量科研路径为可复用的“科学技能”,形成持续自进化闭环。在生物、化学和材料科学等权威长周期科研基准上的实验表明,S1-NexusAgent达到最先进性能。
Agent Memory
Scientific AI
提出基于对象引用的稀疏上下文管理机制,涉及中间结果压缩与子任务上下文隔离,属于记忆相关技术。
分享
夯
0
拉
0
Toward Cognitive Supersensing in Multimodal Large Language Model
Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.
多模态大语言模型(MLLMs)在开放词汇感知任务中表现卓越,但在解决需抽象视觉细节和视觉记忆的复杂认知问题时仍显不足。现有方法主要在文本空间扩展思维链(CoT)推理,忽视了类人视觉空间画板与视觉心像机制。为此,本文提出“认知超感知”训练范式,通过引入潜在视觉心像预测(LVIP)头,联合学习视觉认知潜在嵌入序列并将其与答案对齐,构建基于视觉的内部推理链。进一步采用强化学习优化基于该视觉潜在表示的文本推理路径。作者还构建了CogSense-Bench评测基准,涵盖五个认知维度。实验表明,该方法显著优于现有基线,并在域外数学与科学VQA任务中展现更强泛化能力,表明内部视觉心像可能是连接感知识别与认知理解的关键。
视觉心像
多模态大语言模型
提出视觉心像机制,模拟人类视觉记忆,但未直接研究Agent Memory架构。
分享
夯
0
拉
0
A-MapReduce: Executing Wide Search via Agentic MapReduce
Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou
当前基于大语言模型(LLM)的多智能体系统在强调迭代式、垂直结构信息检索的深度研究任务中表现优异,但在面向大规模、广度优先的宽范围搜索任务中,现有以序列化垂直推理为主的智能体框架难以高效应对。为此,本文提出A-MapReduce,一种受MapReduce范式启发的多智能体执行框架,将宽搜索重构为水平结构的检索问题。该框架通过任务自适应分解与结构化结果聚合实现并行处理,并利用经验记忆驱动查询条件下的任务分配与重组持续演化,从而在大规模宽搜索场景中实现渐进式性能提升。在五个智能体基准上的实验表明,A-MapReduce不仅性能领先,且具备更优的成本效益与执行效率。
Agent Memory
Wide Search
论文利用经验记忆优化任务分配与重组,是宽搜索性能提升的关键机制。
分享
Code
夯
0
拉
0
Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward
Senkang Hu, Yong Dai, Yuzhi Zhao, Yihang Tao, Yu Guo et al.
智能体推理使大型推理模型(LRMs)能够动态获取外部知识,但检索过程的优化仍因缺乏密集且原则性的奖励信号而具有挑战性。本文提出InfoReasoner框架,通过合成语义信息增益奖励激励高效的信息搜寻。理论上,我们将信息增益重新定义为模型信念状态的不确定性减少,并证明其具备非负性、望远镜可加性与信道单调性等性质。实践中,为避免依赖人工标注的检索数据,我们设计了一种输出感知的内生估计器,利用双向文本蕴涵进行语义聚类,直接从模型输出分布计算信息增益。该内生奖励引导策略最大化认知进展,并通过群组相对策略优化(GRPO)实现高效训练。在七个问答基准上的实验表明,InfoReasoner显著优于强基线检索增强方法,平均准确率最高提升5.4%。
智能体推理
信息检索
强化学习
语义表示
聚焦检索优化与信息获取,涉及记忆机制但非核心研究。
分享
夯
0
拉
0
DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning
Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian
人类在对话中回忆信息时常需多轮交互才能完成“话到嘴边”的检索过程,而现有智能体评估基准多局限于单轮设定。为更真实地模拟此类记忆检索场景,本文提出基于模糊与欠指定检索的双智能体评估基准DETOUR(Dual-agent based Evaluation Through Obscure Under-specified Retrieval),包含1,011个提示。该基准设有一个被评估的主智能体(Primary Agent)和一个在所有评估中保持一致的记忆智能体(Memory Agent),主智能体需通过查询后者来识别目标实体。实验表明,当前最先进的模型在涵盖文本、图像、音频和视频的多模态任务上仅达到36%的准确率,凸显了提升智能体在欠指定情境下记忆与推理能力的重要性。
Agent Memory
Interactive Retrieval
提出双智能体记忆交互框架,Memory Agent作为稳定记忆源,是任务关键组件。
分享
夯
0
拉
0
EHR-RAG: Bridging Long-Horizon Structured Electronic Health Records and Large Language Models via Enhanced Retrieval-Augmented Generation
Lang Cao, Qingyu Chen, Yue Guo
电子健康记录(EHR)提供了丰富的纵向临床证据,对医疗决策至关重要,促使研究者采用检索增强生成(RAG)来增强大语言模型(LLM)的预测可靠性。然而,长时程EHR常超出LLM上下文限制,现有方法多依赖截断或简单检索策略,易丢失临床相关事件及时间依赖性。为此,本文提出EHR-RAG框架,专为准确解读长时程结构化EHR数据设计,包含三个核心组件:事件与时间感知的混合EHR检索、自适应迭代检索,以及双路径证据检索与推理。在四项长时程EHR预测任务上的实验表明,EHR-RAG显著优于最强LLM基线,平均Macro-F1提升10.76%。
检索增强生成
电子健康记录
论文聚焦于长时程EHR数据的检索增强机制,涉及信息保留与动态访问,属记忆相关应用。
分享
夯
0
拉
0
A2RAG: Adaptive Agentic Graph Retrieval for Cost-Aware and Reliable Reasoning
Jiate Liu, Zebin Chen, Shaobo Qiao, Mingchen Ju, Danting Zhang et al.
图检索增强生成(Graph-RAG)通过将语料组织为知识图谱并利用关系结构路由证据,提升多跳问答性能。然而实际部署面临两大瓶颈:一是混合难度查询下统一检索策略导致成本浪费或性能不足;二是图抽象过程丢失源文本中的细粒度限定信息。本文提出A2RAG,一种自适应且具智能体特性的GraphRAG框架,结合自适应控制器(仅在必要时触发针对性精炼)与智能体检索器(逐步提升检索强度并将图信号映射回原始文本),以应对提取损失和图谱不完整问题。在HotpotQA和2WikiMultiHopQA上的实验表明,A2RAG在Recall@2指标上分别提升9.9和11.8个百分点,同时将token消耗与端到端延迟降低约50%。
检索增强生成
智能体记忆
涉及检索增强生成中的记忆机制,但聚焦于图检索与成本控制。
分享
夯
0
拉
0
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang et al.
Nikita Gupta (Equal Contribution) | Riju Chatterjee (Equal Contribution) | Lukas Haas (Equal Contribution)
本文提出DeepSearchQA,一个包含900个提示的基准测试,用于评估智能体在17个不同领域中执行复杂多步信息检索任务的能力。该基准聚焦于生成详尽答案列表所需的系统性搜索规划,明确考察三项关键但常被忽视的能力:跨异构来源的信息系统整合、去重与实体消歧以确保精确性,以及在开放搜索空间中对停止条件的推理能力。任务设计为因果链结构,要求智能体在长时程规划中保持上下文记忆。评估显示,当前先进智能体架构在召回率与精确率之间难以平衡,普遍存在过早终止或过度泛化等失败模式。
智能体记忆
信息检索
强调长程上下文保留与信息整合,涉及记忆机制但非核心主题
分享
夯
0
拉
0
Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)
Saurav Prateek
本文提出一种新型深度研究员架构,旨在生成博士级复杂主题的详尽研究报告,以克服并行扩展范式的固有局限。该系统包含两大创新:基于反思的顺序研究计划精炼机制和候选交叉算法。前者通过维护集中化的全局研究上下文,使智能体能在运行时回溯进展、推理并动态调整研究计划;后者则利用多个参数各异的大语言模型候选者探索更广搜索空间,并融合其发现以生成高事实密度的统一报告。在DeepResearch Bench基准上,该架构以46.21分超越现有主流深度研究智能体,验证了顺序扩展范式优于并行自一致性方法。
Agent Memory
Sequential Planning
论文提出全局研究上下文机制,涉及运行时记忆维护与回溯,属Agent Memory关键应用。
分享
夯
0
拉
0
Linear representations in language models can change dramatically over a conversation
Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
Andrew Kyle Lampinen (DeepMind)
语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在(模拟)对话上下文中的动态演化,发现线性表征在对话过程中可能发生显著变化:例如,对话初期被表征为事实的信息,在结尾可能被表征为非事实,反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变,而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在,且即使重放由其他模型生成的对话脚本也能复现。然而,在明确标记为科幻故事的上下文中,此类适应效应显著减弱。此外,沿表征方向进行干预在对话不同阶段效果差异显著。结果表明,模型可能根据对话所提示的角色动态调整其内部表征,这对静态解释方法和特征探针构成挑战,也为理解模型如何适应上下文提供了新方向。
表征动态性
对话建模
研究对话中表征动态变化,涉及记忆内容的上下文依赖性演化。
分享
夯
0
拉
0
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.
大型语言模型(LLMs)向自主智能体的演进要求其管理大规模、动态变化的上下文。然而,现有基准测试多为静态,依赖被动检索任务,无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此,本文提出AgentLongBench,基于横向思维谜题构建模拟环境推演,生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统(32K至4M tokens)的实验揭示了一个关键弱点:尽管在静态检索中表现良好,智能体在动态信息合成方面存在显著不足。分析表明,该性能退化主要由解决查询所需的最小token数量驱动,高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。
long-context memory
agent evaluation
论文评估长上下文Agent在动态环境中的记忆表现,重点分析信息合成能力与记忆系统局限性。
分享
夯
0
拉
0
CiMRAG: Cim-Aware Domain-Adaptive and Noise-Resilient Retrieval-Augmented Generation for Edge-Based LLMs
Shih-Hsuan Chiu, Ming-Syan Chen
基于边缘设备的大语言模型(LLM)个性化虚拟助手日益受到关注,其中检索增强生成(RAG)通过检索用户画像数据生成定制化响应,成为实现个性化的重要手段。然而,随着用户-LLM交互和近期更新等画像数据快速增长,RAG在边缘部署面临效率瓶颈。计算存内(CiM)架构虽可通过原位操作消除内存与处理器间的数据搬运以缓解该问题,但其易受环境噪声干扰,导致检索精度下降。在旅行、医疗、法律等多领域动态边缘场景中,准确性和适应性尤为关键。为此,本文提出任务导向的抗噪嵌入学习框架(TONEL),通过噪声感知投影模型学习符合CiM硬件约束的任务特定嵌入,在噪声环境下实现高精度检索。在个性化基准上的大量实验表明,该方法在任务特定噪声场景下显著优于强基线模型。
检索增强生成
计算存内
边缘AI
抗噪学习
领域自适应
聚焦边缘设备中RAG的存储与检索效率,涉及计算存内架构对记忆机制的影响。
分享
夯
0
拉
0
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
Pingzhi Tang, Yiding Wang, Muhan Zhang
Yiding Wang (Peking University)
大语言模型(LLMs)面临“知识截止”挑战,其冻结的参数化记忆难以直接内化新信息。尽管监督微调(SFT)常用于更新知识,但往往仅修改事实内容,未能有效提升模型利用新知识进行问答或决策的能力。强化学习(RL)对习得推理技能至关重要,但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交,据此提出参数化技能迁移(PaST)框架,通过从源域提取领域无关的技能向量,在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明,PaST显著提升知识整合与工具使用性能,展现出良好的可扩展性与跨域迁移能力。
参数化记忆
技能迁移
聚焦参数化记忆更新与技能迁移,涉及LLM记忆机制但非核心架构研究。
分享
夯
0
拉
0
Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration
Yuejie Li, Ke Yang, Tao Wang, Bolin Chen, Bowen Li et al.
Yuejie Li (Ant GroupChina) | Ke Yang (Ant GroupChina) | Tao Wang (Zhejiang UniversityChina)
基于图的检索增强生成(GraphRAG)框架在全局搜索的全面性与局部搜索的效率之间存在权衡。现有方法在处理大规模层次化图结构时,常面临检索路径优化、探索-利用平衡及多阶段重排序不足等挑战。为此,本文提出Deep GraphRAG框架,采用从全局到局部的层次化检索策略,融合社区间宏观与社区内微观上下文关系。该策略包含三阶段流程:社区间过滤、社区级精炼和实体级细粒度搜索,并引入基于束搜索优化的动态重排序模块以平衡效率与全面性。此外,其知识整合模块采用紧凑型LLM,结合新型强化学习算法DW-GRPO动态调整相关性、忠实性与简洁性三重目标的奖励权重,使1.5B模型在整合任务中接近70B大模型性能。在Natural Questions和HotpotQA上的实验表明,该方法在准确率与效率上显著优于基线。
GraphRAG
层次化记忆
检索增强生成
动态重排序
知识整合
论文聚焦检索增强生成中的层次化记忆组织与整合,属Agent Memory关键支撑技术。
分享
夯
0
拉
0
Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems
Amir Khurshid, Abhishek Sehgal
大语言模型(LLM)通常通过检索增强生成(RAG)构建上下文,采用top-k段落选择策略,易导致文档结构信息碎片化、内容重复及查询上下文不足(如缺乏二阶、三阶语义维度)。本文提出一种融合结构信息与多样性约束的上下文气泡构建框架,在严格令牌预算下组装连贯、可引用的文本片段。该方法利用文档固有结构(如章节、行等多粒度片段)并引入任务条件化的结构先验指导检索;从高相关性锚点出发,通过平衡查询相关性、边际覆盖度与冗余惩罚进行受限选择,显式控制多样性与预算,生成紧凑且信息丰富的上下文集。系统同时输出完整检索轨迹,支持可审计性与确定性调优。在企业文档上的实验表明,该方法显著减少冗余、更好覆盖次级语义维度,并在有限上下文窗口内提升回答质量与引用忠实度。消融实验证明结构先验与多样性约束均不可或缺。
检索增强生成
上下文管理
聚焦上下文构建机制,涉及信息组织与冗余控制,属记忆相关但非核心记忆架构。
分享
夯
0
拉
0
CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking
Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie et al.
大语言模型(LLMs)在心理健康场景中日益普及,但在长时间交互中难以维持现实且目标导向的对话。尽管LLMs能生成流畅回应,其优化目标局限于当前轮次,缺乏对治疗进展的连贯建模,导致长期对话出现脆弱性和偏离。本文提出CALM-IT框架,用于生成与评估长篇动机式访谈(MI)对话,显式建模双角色(治疗师与来访者)的对话动态。该框架将互动表示为双向状态空间过程,双方持续更新对彼此目标一致性、心理状态及短期目标的推断,以指导策略选择与话语生成。大规模评估表明,CALM-IT在有效性与目标一致性方面显著优于强基线,且随对话长度增加仍保持高度稳定性。尽管治疗师重定向次数较少,其来访者接受率最高(64.3%),表明干预时机更精准、更具治疗一致性。研究证实,建模演化的对话状态对生成高质量长篇合成对话至关重要。
对话系统
状态建模
论文建模对话状态演化,涉及长期交互中的状态记忆机制,但未直接聚焦记忆架构。
分享
夯
0
拉
0
Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs
Biswesh Mohapatra, Théo Charlot, Giovanni Duca, Mayank Palan, Laurent Romary et al.
共识在情境化口语对话中至关重要,对话双方需建立并维持对实体、事件和关系的共享指代,以保障交互连贯性。对于对话系统而言,准确地将对话内容锚定于上下文并在后续引用尤为关键。尽管已有研究表明大语言模型(LLM)能执行请求澄清或生成确认等锚定行为,但鲜有工作探讨如何显式表征并存储共识以供后续使用。缺乏此类机制,难以判断确认或澄清行为是否真正反映理解。本文评估模型在情境对话中通过关系性指代建立并利用共识的能力,测试多种共识表征方法,并提出改进共识建立及其后续使用的策略。
common ground
dialogue systems
论文聚焦于对话中共同基础的显式表示与存储,涉及记忆机制但非核心主题。
分享
夯
0
拉
0
Text as a Universal Interface for Transferable Personalization
Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang et al.
本文研究大语言模型(LLM)中的个性化问题。现有工作多将用户偏好表示为隐式的、模型特定的向量或参数,导致难以解释和跨模型/任务迁移的“黑盒”画像。作者主张采用自然语言作为通用、与模型和任务无关的偏好表示接口,从而生成可解释、可复用且能随新交互持续演化的偏好描述。为此,提出两阶段训练框架:结合高质量合成数据的监督微调与强化学习,以优化长期效用和跨任务可迁移性,并构建AlignXplore+模型生成文本化偏好摘要。在九个基准上的实验表明,该8B模型性能超越更大规模开源模型,并展现出强跨任务、跨模型族及跨交互格式的迁移能力。
Agent Memory
Personalization
提出用自然语言作为可迁移、可解释的偏好记忆表示,属于Agent Memory的重要应用。
分享
夯
0
拉
0
ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu et al.
多模态大语言模型(MLLM)显著提升了具身智能体在规划与推理方面的能力。然而,在面对模糊自然语言指令(如“取工具”)时,现有智能体难以平衡物理探索的高成本与人类交互的认知成本,通常将消歧视为被动感知问题,缺乏最小化总任务执行成本的策略性推理。为此,本文提出ESearch-R1——一种成本感知的具身推理框架,将交互对话(Ask)、情景记忆检索(GetMemory)和物理导航(Navigate)统一为单一决策过程,并引入异构成本感知分组相对策略优化算法(HC-GRPO),通过采样多条推理轨迹并强化那些在信息增益与异构成本(如导航时间、人类注意力)之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明,ESearch-R1显著优于标准ReAct智能体,在提升任务成功率的同时将总操作成本降低约50%。
具身智能
情景记忆
多模态大语言模型
强化学习
论文将情景记忆检索作为核心决策模块之一,但重点在于成本感知的交互式搜索框架。
分享
夯
0
拉
0
Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning
Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan et al.
大型推理模型(LRMs)通过生成长推理轨迹并进行反思来实现强大的性能。通过对大规模数据的实证分析发现,大量反思步骤包含重复确认中间结果的自我验证(重新检查)。这些重新检查在不同模型和基准测试中频繁出现,但绝大多数是确认性而非纠正性的,很少能发现错误或改变推理结果。这表明自我验证的激活频率与其实际效用之间存在不匹配。为此,我们提出了一种基于经验的测试时框架,以减少过度使用的验证。该方法检测重新检查行为的激活,参考历史验证结果的经验池,并通过高效检索估计是否可能不需要重新检查。当历史经验表明无需检查时,会发出抑制信号引导模型继续执行。在多个模型和基准测试中,我们的方法在保持准确率的同时减少了高达20.3%的token使用量,在某些数据集上甚至提升了准确率。
LLM推理
自我验证
经验驱动
推理优化
论文探讨了LLM推理中自我验证机制的过度使用问题,与Agent Memory中的反思和验证机制相关。
分享
夯
0
拉
0
IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning
Haohao Luo, Zexi Li, Yuexiang Xie, Wenhao Zhang, Yaliang Li et al.
深度研究(DR)代理通过自主检索和综合大规模网络语料库中的证据生成长篇报告,扩展了大语言模型(LLMs)的参数化知识,实现了长期视角的智能体范式。然而,与实时对话助手不同,DR计算成本高且耗时,导致自主性与交互性的矛盾:在模糊用户查询上高自主性常导致执行时间过长且结果不理想。为此,我们提出IntentRL框架,训练主动代理在开始长期研究前明确潜在用户意图。为克服开放性研究数据稀缺的问题,我们引入了一个可扩展的流程,通过浅到深的意图优化图将少量种子样本扩展为高质量的对话回合。此外,我们采用两阶段强化学习(RL)策略:第一阶段在离线对话中应用RL以高效学习通用用户交互行为,第二阶段使用训练好的代理和用户模拟器进行在线推演,以增强对多样化用户反馈的适应能力。大量实验表明,IntentRL显著提升了意图命中率和下游任务性能,优于封闭源DR代理内置的澄清模块和主动LLM基线。
强化学习
意图识别
深度研究代理
对话系统
论文涉及Agent在处理用户意图时的主动澄清机制,与记忆相关但非核心主题。
分享
夯
0
拉
0
DiscoverLLM: From Executing Intents to Discovering Them
Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim
为处理模糊和开放式的请求,大型语言模型(LLMs)正被越来越多地训练以与用户互动,从而揭示用户尚未表达的意图(例如,提出澄清问题)。然而,用户往往由于尚未形成明确意图而表现出模糊性,他们必须通过观察和探索结果来发现自己的需求。简单地询问“你想要什么样的语气?”在用户自身也不清楚时会失效。我们引入了DiscoverLLM,这是一种新颖且通用的框架,用于训练LLMs帮助用户形成并发现其意图。我们的方法核心是一个新的用户模拟器,该模拟器通过一个分层的意图体系建模认知状态,并随着模型呈现相关选项逐步具体化——其中具体化的程度作为模型优化的奖励信号。由此得到的模型能够通过适应性发散(即探索选项)在意图不明确时协作,而在意图具体化时收敛(即精炼和实施)。在创意写作、技术写作和SVG绘图等提出的交互式基准测试中,DiscoverLLM实现了超过10%的任务性能提升,同时将对话长度减少了高达40%。在一项包含75名参与者的用户研究中,DiscoverLLM相比基线方法显著提高了对话满意度和效率。
意图发现
人机交互
LLM框架
用户模拟器
论文涉及用户意图发现与LLM交互,隐含记忆机制但非核心主题。
分享
夯
0
拉
0
Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain
Wei Zhu
尽管基于大语言模型(LLMs)的检索增强生成(RAG)已在工业应用中迅速采用,但在构建RAG系统方面,特别是在医疗领域,尚未就最佳实践达成共识,包括系统的组成部分、如何组织这些部分以及如何实现每个部分。本文首先仔细分析了RAG系统的每个组件,并为每个组件提出了实际的替代方案。随后,我们对三种类型的任务进行了系统评估,揭示了改进RAG系统的方法以及基于LLM的RAG系统在性能和效率之间的权衡方式。
RAG
医疗领域
LLM
系统优化
论文涉及RAG系统组件及优化,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research
Yifan Shi, Jialong Shi, Jiayi Wang, Ye Fan, Jianyong Sun
运筹学(OR)依赖于专家驱动的建模过程,这一过程缓慢且脆弱,难以应对新场景。尽管大语言模型(LLMs)可以自动将自然语言转换为优化模型,但现有方法要么依赖昂贵的后训练,要么采用多智能体框架,但仍缺乏可靠的协作错误纠正和任务特定检索,常导致输出错误。本文提出MIRROR,一种无需微调的端到端多智能体框架,可直接将自然语言优化问题转化为数学模型和求解器代码。MIRROR集成了两个核心机制:(1)基于执行的迭代自适应修订,用于自动错误纠正;(2)分层检索机制,从精心构建的示例库中获取相关的建模和编码示例。实验表明,MIRROR在标准OR基准测试中优于现有方法,在复杂工业数据集如IndustryOR和Mamo-ComplexLP上表现尤为突出。通过结合精确的外部知识注入与系统性错误纠正,MIRROR为非专家用户提供了一种高效可靠的OR建模解决方案,克服了通用LLMs在专家优化任务中的根本性局限。
多智能体系统
优化建模
错误纠正
分层检索
自然语言处理
论文涉及多智能体框架中的错误修正与检索机制,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings
Yuelin Hu, Jun Xu, Bingcong Lu, Zhengxue Cheng, Hongwei Hu et al.
企业会议环境需要能够在严格延迟、成本和隐私约束下处理多样化操作任务的人工智能助手,例如实时讨论中的快速事实核查以及跨会议分析用于战略规划。现有会议基准主要集中在简化的问答任务上,未能反映真实企业工作流程中由多方协作产生的有机查询、长时序上下文和工具增强推理的需求。本文通过构建一个基于实际数据集和学习代理框架来弥补这一差距。首先,我们引入了MeetAll,这是一个从231场企业会议(总计140小时)中衍生出的双语多模态语料库。问题注入采用经过领域专家验证的企业导向协议,并通过人类可区分性研究进行校准。其次,我们提出了MeetBench XL,一种与人类判断对齐的多维评估协议,用于衡量事实准确性、意图一致性、响应效率、结构清晰度和完整性。第三,我们提出了MeetMaster XL,一种学习型双策略代理,能够联合优化快速与慢速推理路径之间的查询路由及工具调用,包括检索、跨会议聚合和网络搜索。轻量级分类器实现了准确的路由,具有最小开销,在质量与延迟之间取得了优于单模型基线的平衡。实验结果表明,该方法在商业系统上表现一致提升,并通过消融实验、鲁棒性测试和现实部署案例加以支持。
Agent Memory
多模态语料库
双策略代理
会议系统
评估协议
论文涉及Agent在会议场景中的记忆与推理机制,但非核心研究主题。
分享
夯
0
拉
0
ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs
Xuancheng Li, Haitao Li, Yujia Zhou, Qingyao Ai, Yiqun Liu
Xuancheng Li (DCST, Tsinghua UniversityBeijingChina) | Haitao Li (DCST, Tsinghua UniversityBeijingChina) | Yujia Zhou (DCST, Tsinghua UniversityBeijingChina)
大型语言模型(LLMs)在处理长上下文输入时常常面临“中间信息丢失”问题,关键信息因长度过长而被稀释或忽略。现有的上下文压缩方法旨在通过减少输入规模来解决这一问题,但在信息保留和压缩效率之间难以取得平衡。本文提出了一种自适应任务感知压缩器(ATACompressor),该方法根据具体任务需求动态调整压缩策略。ATACompressor采用选择性编码器,仅对长上下文中与任务相关的部分进行压缩,从而确保关键信息得以保留并去除冗余内容。其自适应分配控制器能够感知相关内容的长度,并据此调整压缩率,以优化资源利用。我们在HotpotQA、MSMARCO和SQUAD三个问答数据集上评估了ATACompressor,结果表明其在压缩效率和任务性能方面均优于现有方法。此外,我们还进行了多种消融实验和分析实验,以深入理解ATACompressor的关键组成部分。
长上下文处理
信息压缩
任务感知
LLM优化
论文涉及长上下文处理中的信息压缩,与Agent Memory相关,但非核心研究。
分享
夯
0
拉
0
Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection
Dongwon Jo, Beomseok Kang, Jiwon Song, Jae-Joon Kim
注意力机制的二次复杂度仍然是大语言模型长上下文推理的核心瓶颈。现有加速方法要么通过结构化模式稀疏化注意力图,要么在特定层永久移除token,这可能导致保留无关token或依赖不可逆的早期决策,而无法适应token重要性的逐层变化。本文提出了一种轻量且动态的token级稀疏化机制——Token Sparse Attention,在注意力计算过程中将每个head的Q、K、V压缩到一个缩减的token集合中,并在输出后将其解压回原始序列,从而允许后续层重新考虑token信息。此外,该方法揭示了token选择与稀疏注意力交汇的新设计点。该方法完全兼容密集注意力实现(如Flash Attention),并能无缝集成现有稀疏注意力内核。实验结果表明,Token Sparse Attention在保持精度损失低于1%的情况下,实现了最高达3.23倍的注意力加速效果,证明了动态且交错的token级稀疏化是可扩展长上下文推理的有效补充策略。
注意力机制
长上下文推理
稀疏化
token选择
模型优化
论文提出了一种动态的token级稀疏化机制,与长上下文推理中的信息保留和处理相关,涉及记忆管理。
分享
夯
0
拉
0
One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence
Bowen Jiang, Taiwei Shi, Ryo Kamoi, Yuan Yuan, Camillo J. Taylor et al.
本文介绍了OMAR(One Model, All Roles)框架,该框架通过多轮、多智能体对话的自我博弈,使AI能够发展出社交智能。与传统依赖静态单轮优化的方法不同,OMAR允许单一模型同时扮演对话中的所有参与者,直接从动态社交互动中学习长期目标和复杂社会规范。为确保长对话中的训练稳定性,我们实现了分层优势估计方法,分别计算回合级和词级优势。在SOTOPIA社交环境和狼人杀策略游戏中评估表明,训练后的模型展现出细致的、涌现的社交智能,如共情、说服和寻求妥协等,展示了即使在竞争场景下协作学习的有效性。尽管我们识别了诸如奖励黑客等实际挑战,但结果表明,无需人工监督即可产生丰富的社交智能。希望本研究能激励进一步探索群体对话中AI社交智能的相关研究。
强化学习
多智能体系统
社交智能
自我博弈
论文涉及多智能体对话中的长期目标学习,与记忆机制相关但非核心主题。
分享
夯
0
拉
0
Test-time Recursive Thinking: Self-Improvement without External Feedback
Yufan Zhuang, Chandan Singh, Liyuan Liu, Yelong Shen, Dinghuai Zhang et al.
现代大型语言模型(LLMs)在推理能力方面取得了快速进步,主要得益于使用可验证奖励的强化学习。本文探讨了这些LLMs是否可以在无需额外训练的情况下实现自我改进。我们识别出两个核心挑战:(i)高效生成多样且高质量的候选解决方案,以及(ii)在缺乏真实监督的情况下可靠地选择正确答案。为了解决这些问题,我们提出了测试时递归思考(TRT),一种迭代的自我改进框架,该框架基于特定回滚策略、积累的知识和自生成的验证信号进行生成。通过TRT,开源模型在AIME-25/24上达到了100%的准确率,并且在LiveCodeBench最难的问题上,闭源模型在没有外部反馈的情况下提高了10.4至14.8个百分点。
LLM
Self-Improvement
Recursive Thinking
Verification Signals
论文提出了一种测试时递归思考框架,涉及自我改进和验证信号,与Agent Memory相关但非核心。
分享
夯
0
拉
0
The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers
Blake Bullwinkel, Giorgio Severi, Keegan Hines, Amanda Minnich, Ram Shankar Siva Kumar et al.
检测模型是否被投毒是AI安全领域的长期问题。在本研究中,我们提出了一种实用的扫描器,用于识别因果语言模型中的休眠代理式后门。我们的方法基于两个关键发现:首先,休眠代理倾向于记忆投毒数据,因此可以通过记忆提取技术泄露后门示例;其次,当输入中存在后门触发器时,中毒的LLM在输出分布和注意力头中表现出独特的模式。基于这些观察,我们开发了一种可扩展的后门扫描方法,该方法无需先验知识,仅需推理操作。我们的扫描器可以自然地整合到更广泛的防御策略中,且不会影响模型性能。我们展示了该方法在多种后门场景和广泛模型及微调方法中能够恢复有效的触发器。
LLM后门检测
模型记忆提取
AI安全
论文涉及模型记忆提取与后门触发器检测,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
Agent Alpha: Tree Search Unifying Generation, Exploration and Evaluation for Computer-Use Agents
Sizhe Tang, Rongqian Chen, Tian Lan
尽管通过轨迹级采样扩展测试时计算能力显著提升了图形用户界面(GUI)代理的性能,但由于缺乏回溯能力,导致无法重用部分成功经验或从早期错误中恢复。本文提出了一种名为Agent Alpha的统一框架,通过步骤级蒙特卡洛树搜索(MCTS)协同生成、探索和评估过程,从而主动建模或利用规划空间的结构。通过将alpha-UCT引导搜索集成到交互循环中,Agent Alpha实现了有意识的规划,有助于早期剪枝次优分支并高效重用前缀。此外,还采用比较驱动评估以减少绝对评分偏差,并通过多样性约束扩展来保持紧凑且信息丰富的搜索空间。对alpha-UCT的遗憾界进行了分析。在OSWorld基准测试中,Agent Alpha在等量计算条件下取得了最先进的成功率(约77%),显著优于轨迹级基线方法。
蒙特卡洛树搜索
代理规划
探索与评估
计算效率
论文涉及Agent的规划与搜索机制,提及前缀重用和探索策略,与记忆相关但非核心主题。
分享
夯
0
拉
0
Large Language Models Can Take False First Steps at Inference-time Planning
Haijiang Yan, Jian-Qiao Zhu, Adam Sanborn
Haijiang Yan (haijiang.yan@warwick.ac.uk) (Department of Psychology, The University of Warwick) | Jian-Qiao Zhu (Department of Psychology, The University of Hong Kong) | Adam Sanborn (Department of Psychology, The University of Warwick)
大型语言模型(LLMs)在训练过程中已被证明能够获得序列级规划能力,但其在推理时表现出的规划行为往往短视且与其能力不一致。本文通过贝叶斯方法解释这一差距,认为规划行为受生成上下文的影响:由于自然语言与LLMs内部语言之间的细微差异,积累的自生成上下文会导致推理过程中的规划偏移,从而表现出规划能力下降的现象。通过两个受控实验验证该模型:一个随机生成任务展示了在人类提示下受限规划及随着自生成上下文积累规划强度增强的现象;另一个高斯采样任务则显示了在自生成序列条件下的初始偏差减少。这些发现为理解LLMs在推理过程中如何进行前瞻性规划提供了理论解释和实证依据。
LLM
推理规划
生成上下文
贝叶斯模型
论文探讨了LLM在推理时的规划行为与训练时能力的差异,涉及生成上下文对规划的影响,与Agent Memory相关。
分享
夯
0
拉
0
Spatiotemporal Decision Transformer for Traffic Coordination
Haoran Su, Yandong Sun, Hanxiao Deng
交通信号控制是城市交通中的关键挑战,需要多个交叉口之间的协调以优化整体交通流量。尽管强化学习在自适应信号控制中展现出潜力,现有方法在多智能体协调和样本效率方面存在困难。本文提出MADT(多智能体决策变换器),将多智能体交通信号控制重新表述为序列建模问题。MADT通过引入图注意力机制建模交叉口间的空间依赖关系、时序变换器编码器捕捉交通动态以及目标性能条件来扩展决策变换器范式至多智能体场景。该方法能够从历史交通数据中进行离线学习,并支持潜在的在线微调。实验表明,在合成网格网络和真实交通场景中,MADT实现了最先进的性能,相比最强基线平均减少了5-6%的旅行时间,并表现出更优的相邻交叉口协调能力。
多智能体系统
交通信号控制
决策变换器
序列建模
论文涉及多智能体决策中的序列建模与目标性能条件,与Agent Memory相关但非核心主题。
分享
夯
0
拉
0
WideSeek: Advancing Wide Research via Multi-Agent Scaling
Ziyang Huang, Haolin Ren, Xiaowei Yuan, Jiawei Wang, Zhongtao Jiang et al.
搜索智能正在从深度研究向广泛研究转变,这一范式对于在复杂约束下并行检索和综合全面信息至关重要。然而,该领域的发展受到缺乏专门的基准和优化方法的阻碍。为了解决这些问题,本文从数据管道和智能体优化两个角度深入研究广泛研究。首先,我们构建了WideSeekBench,这是一个通过严格多阶段数据管道生成的通用广域信息检索(GBIS)基准,确保目标信息量、逻辑约束和领域的多样性。其次,我们引入了WideSeek,一种动态分层的多智能体架构,可以根据任务需求自主创建并行子智能体。此外,我们设计了一个统一的训练框架,将多智能体轨迹线性化,并使用端到端强化学习优化系统。实验结果证明了WideSeek和多智能体强化学习的有效性,表明扩展智能体数量是推进广泛研究范式的有前途方向。
多智能体系统
信息检索
强化学习
广泛研究
论文涉及多智能体架构与信息检索,但未直接探讨记忆机制。
分享
夯
0
拉
0
Context Learning for Multi-Agent Discussion
Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang et al.
多智能体讨论(MAD)近期受到广泛关注,其中多个大语言模型(LLM)实例通过结构化讨论协同解决问题。然而,现有方法常因各智能体上下文不一致而导致讨论失谐,难以达成连贯解。本文提出一种多LLM上下文学习方法(M2CL),为每个智能体学习一个上下文生成器,可在每轮讨论中通过自动信息组织与精炼动态生成上下文指令。受上下文指令理论启发,M2CL采用精心设计的自适应机制训练生成器,以控制上下文一致性并调节输出差异,从而避免过早收敛于多数噪声,逐步达成正确共识。在学术推理、具身任务和移动控制等挑战性任务上的实验表明,M2CL性能显著优于现有方法20%–50%,且具备良好的迁移性与计算效率。
多智能体系统
上下文学习
涉及上下文管理与信息组织,属记忆相关机制但非核心记忆架构。
分享
夯
0
拉
0
The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors
Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger et al.
大语言模型(LLMs)通过上下文构建对答案和主张的条件信念(即后验分布),但其在表征空间中如何编码、随新证据更新以及如何通过干预重塑这些信念尚缺乏机制性解释。本文在受控环境中研究Llama-3.2如何仅凭上下文中的样本隐式推断正态分布的参数(均值与标准差),并发现随着上下文学习的深入,参数的“信念流形”呈弯曲结构形成。当分布突变时,标准线性干预常使模型偏离流形,导致耦合且分布外的偏移;而基于几何与场感知的干预能更好保持目标信念族的结构。研究展示了线性场探测(LFP)作为一种简单方法,可对数据流形进行划分并实施尊重底层几何的干预,表明LLM中自然涌现出丰富结构,纯线性概念表征常不足以准确抽象。
belief representation
representation geometry
研究LLM信念表征的几何结构与更新机制,涉及记忆中信念状态的动态演化。
分享
夯
0
拉
0
WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora
Pengyu Wang, Benfeng Xu, Licheng Zhang, Shaohan Wang, Mingxuan Du et al.
基于图的检索增强生成(GraphRAG)将外部知识组织为层次化图结构,以高效检索并聚合分散于多文档中的证据。然而,现有GraphRAG基准多依赖短小、人工整理的段落,难以在包含长上下文和大规模异构文档的真实场景中有效评估系统性能。为此,本文提出WildGraphBench基准,利用维基百科文章与其外部参考文献之间的结构关系构建贴近现实的评测环境。该基准涵盖12个顶层主题,以外部参考文献作为检索语料库,引用链接的陈述作为真值,共生成1,100个问题,分为单事实问答、多事实问答和段落级摘要三类复杂度。实验表明,当前GraphRAG流程在中等数量来源的多事实聚合任务中表现良好,但在摘要任务中可能因过度强调高层陈述而忽略细粒度细节。
GraphRAG
知识图谱
检索增强生成
基准测试
涉及外部知识存储与检索机制,属于记忆相关应用但非核心记忆架构研究。
分享
Code
夯
0
拉
0
From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs
Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang et al.
R1风格的大语言模型因其自反能力备受关注,但其内在机制尚不明确。本文聚焦反思行为的起始点,逐层追踪其激活轨迹。通过logit lens解析token级语义,发现存在结构化进展:(i) 潜在控制层编码“思考预算”语义;(ii) 语义枢纽层浮现话语级线索(如转折点与总结提示)并主导概率分布;(iii) 行为显化层中反思行为token的采样概率显著上升。干预实验揭示了各阶段间的因果链:提示语义调节潜在控制方向的激活投影,引发语义枢纽层中线索竞争,进而调控反思行为token的采样可能性。结果表明该过程模拟了人类从潜意识监控、话语调控到显式自反的元认知路径。
元认知
自反机制
探讨LLM反思行为的内部机制,涉及元认知与信息处理过程,间接关联记忆调控。
分享
Code
夯
0
拉
0
Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing
Shuainan Liu, Xuanang Chen, Ben He, Le Sun
当前大语言模型的知识编辑方法通常依赖预定义基准,仅评估被编辑事实及其有限的相关知识,难以全面理解编辑对模型整体知识系统的影响。为此,本文提出嵌入虚拟化知识(EVK),通过在嵌入空间中施加受控扰动,刻画模型知识并探索超出显式数据标注的更广泛虚拟知识区域。基于EVK,作者构建了嵌入级评估基准EVK-Bench,可量化编辑引发的知识漂移,揭示传统样本级指标无法捕捉的影响。此外,还提出即插即用的EVK-Align模块,在编辑过程中约束嵌入级知识漂移,可无缝集成至现有编辑方法。实验表明,该方法在不牺牲编辑准确率的前提下显著提升知识保留能力,并支持更全面的评估。
知识编辑
知识保留
涉及知识编辑对模型内部知识(记忆)的影响,但未聚焦Agent Memory架构。
分享
夯
0
拉
0
Read As Human: Compressing Context via Parallelizable Close Reading and Skimming
Jiwei Tang, Shilei Liu, Zhicheng Zhang, Qingsong Lv, Runsong Zhao et al.
大语言模型(LLMs)在多种任务中表现出卓越能力,但在长上下文场景中受限于计算效率低下和信息冗余。本文提出RAM(Read As HuMan)框架,借鉴人类阅读行为——对重要内容精读、对次要内容略读——将上下文分段并结合查询并行编码。高相关性片段完整保留,低相关性片段则通过查询引导压缩为紧凑摘要向量。显式文本片段与隐式摘要向量拼接后输入解码器,在保持自然语言可解释性的同时提升性能。为进一步优化精读与略读的决策边界,引入基于正负查询-片段对的对比学习目标。实验表明,RAM在多个问答与摘要基准上优于现有方法,并在长输入(平均16K,最长32K)上实现最高12倍的端到端加速。
上下文压缩
长上下文处理
提出上下文压缩机制,间接优化Agent的长期记忆处理效率。
分享
夯
0
拉
0
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik et al.
Matan Levy (PhD Student at The Hebrew University of Jerusalem)
自回归视频扩散模型支持流式生成,适用于长视频合成与交互式神经游戏引擎,但其注意力层在推理时因KV缓存持续增长而成为瓶颈,导致延迟增加与GPU内存激增。本文分析了自回归视频扩散中的三类冗余:帧间近重复键、缓慢演化的语义查询/键,以及长提示中仅少数令牌对每帧有效。据此提出无需训练的统一注意力框架:TempCache通过时序对应压缩KV缓存;AnnCA利用近似最近邻匹配选择帧相关提示令牌以加速交叉注意力;AnnSA通过语义匹配稀疏化自注意力。该方法显著降低计算与内存开销,在保持视觉质量的同时实现5–10倍端到端加速,并在长时间推理中维持稳定吞吐与近恒定峰值显存。
KV缓存优化
稀疏注意力
聚焦KV缓存压缩与内存优化,属Agent Memory相关机制。
分享
夯
0
拉
0
$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality
Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong et al.
尽管大语言模型(LLMs)展现出卓越能力,却会无意中记忆敏感数据,带来严重的隐私与安全风险。机器遗忘是缓解此类风险的关键,但现有方法面临根本困境:激进遗忘易导致灾难性遗忘而损害模型效用,保守策略则可能仅实现表面遗忘,仍易受对抗恢复攻击。为此,本文提出AGT$^{AO}$(对抗门控训练与自适应正交性)统一框架,兼顾鲁棒擦除与效用保持。该方法引入自适应正交性(AO)动态缓解遗忘与保留目标间的梯度冲突,减少非预期知识退化;同时通过对抗门控训练(AGT)将遗忘建模为潜在空间的极小-极大博弈,并采用课程式门控机制模拟并抵御内部恢复尝试。实验表明,AGT$^{AO}$在遗忘效果(KUR≈0.01)与模型效用(MMLU 58.30)之间取得优越平衡。
机器遗忘
大语言模型安全
聚焦LLM遗忘机制,涉及记忆删除与保留的权衡,属记忆相关但非Agent专用。
分享
Code
夯
0
拉
0
Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning
Yadong Wang, Haodong Chen, Yu Tian, Chuanxing Geng, Dong Liang et al.
潜在推理将思维链(CoT)压缩为连续隐状态,但现有方法依赖难以解释和控制的稠密潜在转移。与此同时,稀疏表征模型虽能揭示人类可解释的语义特征,却多限于事后分析。本文提出LSTR(潜在稀疏转码推理)框架,将功能性稀疏转码器提升为主动推理算子,通过稀疏语义转移执行多步计算。其核心是采用残差跳跃架构的潜在转移转码器(LTT),将线性流形迁移与稀疏语义更新解耦,并通过显式稀疏性约束实现可控的语义分辨率。实验表明,LSTR在保持推理准确性和压缩效率的同时,显著优于稠密基线的可解释性。因果干预与轨迹分析进一步证明,这些稀疏特征在推理过程中兼具可解释性与因果有效性。
潜在推理
稀疏表征
涉及隐状态压缩与语义表征,属记忆机制的间接应用。
分享
夯
0
拉
0
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.
随着基于大语言模型(LLM)的智能体被部署于日益复杂的现实环境中,现有基准难以充分反映诸如全局约束执行、多工具协同推理以及在长期多轮交互中适应用户行为演变等关键挑战。为此,我们提出TRIP-Bench——一个基于真实旅行规划场景的长周期交互基准。该基准利用真实数据,提供18个精心设计的工具和40余项旅行需求,并支持自动化评估。其困难子集强调长而模糊的交互、风格变化、可行性变动及迭代版本修订。对话最多包含15轮用户输入、150余次工具调用,上下文长度可超20万token。实验表明,即使先进模型在简单子集上的成功率也不超过50%,在困难子集上则低于10%。我们进一步提出GTPO——一种在线多轮强化学习方法,结合专用奖励归一化与奖励差分策略,在Qwen2.5-32B-Instruct上显著提升约束满足能力与交互鲁棒性,优于Gemini-3-Pro。
长周期交互
智能体记忆
涉及长上下文记忆与多轮交互中的信息维护,但未聚焦记忆机制本身。
分享
夯
0
拉
0
Autonomous Question Formation for Large Language Model-Driven AI Systems
Hong Su
大语言模型(LLM)驱动的AI系统在动态开放环境中对自主决策日益重要。然而,现有系统多依赖预定义任务和固定提示,难以在环境变化时自主识别待解决问题。本文提出一种基于人类模拟的框架,使AI系统能通过推理其内部状态、环境观测及其他AI交互,自主生成问题并设定任务。该方法将问题生成视为任务选择与执行前的一阶决策过程,融合内驱、环境感知与多智能体感知的提示范围,逐步扩展认知覆盖。框架还支持从经验中学习问题生成过程,以持续提升适应性与决策质量。多智能体仿真结果表明,环境感知提示显著减少“未进食”事件,而多智能体感知提示在20天仿真中进一步降低累计事件超60%(p<0.05)。
自主问题生成
多智能体系统
涉及内部状态与经验学习,间接关联记忆机制但非核心。
分享
夯
0
拉
0
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang et al.
视觉隐喻是一种高阶人类创造力形式,通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得显著进展,现有模型仍局限于像素级指令对齐与表层外观保持,难以捕捉实现真正隐喻生成所需的底层抽象逻辑。为此,本文提出视觉隐喻迁移(VMT)任务,要求模型自主解耦参考图像中的“创意本质”,并将该抽象逻辑重新具象化到用户指定的目标主体上。我们构建了一个受认知启发的多智能体框架,通过新颖的图式语法(“G”)实现概念融合理论(CBT)的操作化,该结构化表示将关系不变量与具体视觉实体解耦,为跨域逻辑重实例化提供坚实基础。实验表明,该方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最先进方法。
视觉隐喻
多智能体系统
涉及抽象逻辑的提取与跨域重实例化,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction
Yuheng Yang, Siqi Zhu, Tao Feng, Ge Liu, Jiaxuan You
大语言模型(LLMs)可视为压缩的知识库,但其实际包含的知识范围尚不明确。现有基准多为静态,难以系统探测知识边界。本文提出一种交互式智能体框架,通过四种自适应探索策略在不同粒度上系统提取并量化LLM中的知识。为保障知识质量,设计了三阶段处理流程:基于向量的去重、基于LLM的语义消歧,以及领域相关性审核。实验表明,递归分类法是最有效的探索策略;模型规模与知识提取量呈明显扩展律;专用模型初始准确率高但衰减快,通用模型则表现更稳定;不同训练数据导致模型家族间存在可测量的知识分布差异。
知识提取
智能体框架
涉及知识提取与存储机制,但未聚焦记忆架构本身。
分享
夯
0
拉
0
Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs
Anusa Saha, Tanmay Joshi, Vinija Jain, Aman Chadha, Amitava Das
大语言模型虽经多语言训练,但其主导语言常为英语,反映预训练数据中英语的主导地位,其他语言虽存储于参数化记忆中却系统性被抑制。本文提出语言默认性由稀疏低秩控制回路(即“语言神经元”)调控,并可被机制性分离与安全引导。我们引入Neural FOXP2方法,通过三阶段实现目标语言(如印地语或西班牙语)的主语言化:(i)定位语言特异性神经元;(ii)通过谱低秩分析提取语言转换的主导方向;(iii)在低至中层对语言神经元施加有符号的稀疏激活偏移,增强目标语言同时抑制英语表征,从而可控地实现目标语言默认性。
语言控制
参数化记忆
涉及参数化记忆中的语言表征调控,但聚焦语言控制而非通用Agent Memory机制。
分享
夯
0
拉
0
Synapse Compendium Aware Federated Knowledge Exchange for Tool Routed LLMs
Abhijit Chakraborty, Sandipan De, Yash Shah, Chahana Dahal, Vivek Gupta
基于大语言模型(LLM)的智能体在联邦学习下的协作面临通信开销高、数据异构性及工具使用差异等挑战。本文提出Synapse框架,通过训练一个共享的全局工具使用行为知识模型来应对上述问题。各客户端智能体在固定LLM基础上本地学习工具使用模式,并通过协调器上传表征工件以进行联邦聚合;全局工具知识库随之更新并重新分发,促使智能体收敛至稳定的工具选择策略。该框架采用模板化表示、嵌入检索结合LLM重排序以及自适应掩码技术,在保障效用的同时限制信息泄露。实验表明,Synapse在多智能体LLM系统中相较权重或提示共享方法显著提升了工具使用效能并降低了通信开销。
联邦学习
工具使用
涉及工具使用知识的共享与聚合,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference
Xuan Ai, Qingqing Yang, Peng Wang, Lei Deng, Lin Zhang et al.
大语言模型(LLMs)的长上下文推理受限于注意力机制的二次计算复杂度和键值(KV)缓存的巨大内存占用。现有稀疏注意力方法常依赖固定模式或激进剪枝,难以兼顾效率与精度。本文提出HyLRA(混合层复用注意力),基于逐层稀疏性分析,发现注意力机制具有“层内敏感性”(某些层需完整注意力以防特征失真)和“层间相似性”(相邻层共享关键token)。HyLRA通过离线动态规划制定最优逐层策略:对敏感层保留完整注意力,对容忍层则复用前一层的top-k索引以跳过二次计算,从而将计算聚焦于关键token。实验表明,HyLRA在保持性能(精度下降<1%)的同时,推理吞吐量提升6%–46%,优于当前先进稀疏注意力方法。
KV缓存优化
稀疏注意力
聚焦KV缓存优化,属LLM推理内存管理,非Agent专属记忆机制。
分享
夯
0
拉
0
Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation
Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju
Pattigadapa Venkatesh Raju3 (School of Computing, Informatics Institute of Technology, Colombo 06, Western Province, Sri Lanka)
客服问答系统日益依赖对话语言理解。尽管大语言模型(LLMs)性能优异,但其高计算成本限制了在资源受限环境中的部署。小型语言模型(SLMs)虽更高效,但在需保持对话连贯性与上下文理解的多轮客服问答中效果尚不明确。本文研究了经过指令微调的SLMs在采用历史摘要策略以保留关键对话状态下的表现,并提出基于对话阶段的定性分析方法,评估模型在客服交互不同阶段的行为。通过词汇与语义相似度指标及人工与LLM-as-a-judge评估,对9个低参数SLMs与3个商用LLMs进行比较。结果表明SLMs表现差异显著,部分接近LLM水平,其余则难以维持对话连贯性与上下文对齐。
小型语言模型
对话状态管理
采用历史摘要策略维护对话状态,涉及记忆机制但非核心研究。
分享
夯
0
拉
0
SEISMO: Increasing Sample Efficiency in Molecular Optimization with a Trajectory-Aware LLM Agent
Fabian P. Krüger, Andrea Hunklinger, Adrian Wolny, Tim J. Adler, Igor Tetko et al.
分子结构优化以实现特定性质是化学科学,尤其是药物研发中的关键瓶颈。由于分子性质评估常依赖昂贵且受限的实验或模拟(即“oracle”),高效利用样本至关重要。本文提出SEISMO,一种在推理时严格在线运行的LLM智能体,每次调用oracle后即时更新,无需基于种群或批量学习。SEISMO将完整优化轨迹(包括自然语言任务描述、标量评分及可选的结构化解释性反馈)作为条件生成新分子提案。在包含23项任务的实用分子优化基准上,SEISMO的优化曲线下面积比现有方法高2–3倍,常在50次oracle调用内接近任务最优得分。额外药化任务表明,引入解释性反馈可进一步提升效率,凸显融合领域知识与结构化信息对样本高效优化的重要性。
LLM Agent
Molecular Optimization
利用优化轨迹作为上下文记忆,但未深入探讨记忆机制本身。
分享
夯
0
拉
0
Position: Agentic Evolution is the Path to Evolving LLMs
Minhua Lin, Hanqing Lu, Zhan Shi, Bing He, Rui Mao et al.
随着大语言模型(LLMs)从静态训练集走向开放的真实世界环境,一个根本性局限显现:静态训练无法跟上部署环境的持续变化。尽管增加训练和推理阶段的算力可提升静态能力,却无法弥合训练与部署之间的差距。本文主张,解决此问题需引入新的扩展维度——演化。现有部署期适应方法(如参数微调或启发式记忆积累)缺乏诊断失败并实现持久改进所需的战略性智能体能力。作者提出“智能体演化”是LLM适应的必然未来,将演化本身从固定流程提升为自主的演化智能体,并构建通用框架A-Evolve,将部署期改进视为对持久系统状态的有目标优化过程。进一步提出演化扩展假设:适应能力随分配给演化的算力而扩展,使智能体演化成为实现现实世界中持续、开放式适应的可扩展路径。
智能体演化
持续适应
提及启发式记忆积累作为现有方法,但非核心研究重点。
分享
夯
0
拉
0
From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching
Zhixiang Zhang, Zesen Liu, Yuchong Xie, Quanfeng Huang, Dongdong She
语义缓存已成为扩展大语言模型(LLM)应用的关键技术,被AWS和微软等主流服务商广泛采用。该机制利用语义嵌入向量作为缓存键,有效降低语义相似查询的延迟与冗余计算。本文将语义缓存键视为一种模糊哈希,指出为提升缓存命中率所需的局部性与密码学雪崩效应对抗碰撞的要求存在根本冲突。我们首次系统研究缓存碰撞引发的完整性风险,提出名为CacheAttack的黑盒自动化攻击框架,在安全关键任务与智能体工作流中实现86%的响应劫持命中率,并能诱导LLM智能体产生恶意行为,且在不同嵌入模型间具有良好迁移性。金融智能体案例进一步揭示了该漏洞的现实危害,并讨论了缓解策略。
语义缓存
安全漏洞
探讨语义缓存作为LLM Agent记忆机制的安全性问题,涉及记忆存储与检索的核心环节。
分享
夯
0
拉
0
TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI
Roham Koohestani, Ateş Görpelioğlu, Egor Klimov, Burcu Kulahcioglu Ozkan, Maliheh Izadi
Roham Koohestani (JetBrains ResearchAmsterdamNetherlands) | Ateş Görpelioğlu (Delft University of TechnologyDelftNetherlands) | Egor Klimov (JetBrains ResearchAmsterdamNetherlands)
智能体AI系统通过工具进行交互,并在长期、随机的交互轨迹中演化其行为,这使得其行为保障变得复杂,因其依赖于非确定性环境和概率性模型输出。先前工作通过动态概率保障(DPA)引入了运行时验证方法,在线学习马尔可夫决策过程(MDP)并进行量化属性的模型检测。然而,该方法要求开发者手动定义状态抽象,导致验证过程与特定应用启发式紧密耦合,增加采用难度。本文提出TriCEGAR,一种从执行日志自动构建状态抽象的轨迹驱动机制,支持在线构建智能体行为MDP。TriCEGAR将抽象表示为从轨迹中学习并利用反例精化的谓词树。我们描述了一个原生框架实现,可捕获类型化的智能体生命周期事件、从轨迹构建抽象、构造MDP,并执行概率模型检测以计算如最大成功概率Pmax(success)和最小失败概率Pmin(failure)等边界。此外,运行似然性还可作为护栏信号用于异常检测。
智能体验证
状态抽象
涉及从执行轨迹构建状态抽象,隐含记忆机制但非核心主题。
分享
夯
0
拉
0
Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments
Jinwoo Jang, Minjong Yoo, Sihyung Yoon, Honguk Woo
基于语言模型的具身智能体在现实场景中日益普及,但在动态环境中适应能力有限,而构建准确且灵活的世界模型对有效推理与决策至关重要。为此,本文将混合专家(MoE)范式扩展至具身智能体,提出测试时世界模型混合框架(TMoW)。该框架在测试阶段动态更新世界模型的路由函数,通过多粒度原型路由、测试时特征对齐及基于蒸馏的混合增强,实现对未知和演化环境的持续适应。实验在VirtualHome、ALFWorld和RLBench基准上验证了其在零样本适应与少样本扩展场景中的优越性能。
世界模型
具身智能体
涉及世界模型的动态组合与更新,隐含记忆机制但未显式研究记忆架构。
分享
夯
0
拉
0
ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review
Palash Goyal, Mihir Parmar, Yiwen Song, Hamid Palangi, Tomas Pfister et al.
Palash Goyal (Google) | Mihir Parmar (Google) | Yiwen Song (Google)
自动同行评审已从简单的文本分类发展为结构化反馈生成。然而,当前最先进的系统仍局限于“表面级”批评:虽擅长内容总结,却常因缺乏人类专家所具备的外部上下文,而难以准确评估论文的新颖性与重要性,或识别深层方法论缺陷。本文提出ScholarPeer——一种支持检索的多智能体框架,旨在模拟资深研究者的认知过程。该框架通过历史学家智能体动态构建领域叙事,借助基线侦察智能体识别缺失的对比,并利用多维度问答引擎验证主张,将评审意见锚定于实时的大规模文献中。在DeepReview-13K上的评估表明,ScholarPeer在成对比较中显著优于现有方法,并缩小了与人类评审在多样性方面的差距。
多智能体系统
上下文记忆
论文涉及动态构建领域叙事和上下文获取,隐含记忆机制但非核心焦点。
分享
夯
0
拉
0
Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks
Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao
现有神经求解器通常在固定任务集上一次性训练,或在顺序到达的若干任务上进行终身学习,且假设每个任务均有充足训练资源。然而现实场景中,问题模式常随时间持续漂移,导致大量任务依次出现,而每个任务仅能获得有限训练资源。本文研究一种新型终身学习范式,针对学习过程中持续漂移的任务,且任意时刻均无法对任一任务充分训练的情形。为此,提出“经验增强的双重回放”(DREE)框架,以提升学习效率并缓解灾难性遗忘。大量实验表明,在持续漂移设定下,DREE能有效学习新任务、保留先验知识、提升对未见任务的泛化能力,并可适配多种现有神经求解器。
终身学习
灾难性遗忘
提出双回放机制缓解灾难性遗忘,涉及记忆保留但非核心记忆架构研究。
分享
夯
0
拉
0
Towards Agentic Intelligence for Materials Science
Huan Zhang, Yizhan Li, Wenhao Huang, Ziyu Hou, Yu Song et al.
人工智能与材料科学的融合带来变革性机遇,但要真正加速发现,需超越孤立任务的微调模型,转向能在整个发现闭环中规划、行动与学习的智能体系统。本文提出一种以流程为中心的独特视角,涵盖语料构建、预训练、领域适配、指令微调,直至与仿真和实验平台交互的目标条件智能体。不同于以往综述,本文将全过程视为端到端系统,以实际发现成果而非代理基准为目标进行优化,并探讨上游设计(如数据构建与训练目标)如何通过有效信用分配与下游实验成功对齐。文章整合AI与材料科学的术语、评估与工作流,并从双重视角分析:AI侧强调大语言模型在模式识别、预测分析与文献挖掘中的优势;材料科学侧聚焦材料设计、工艺优化及与外部工具(如DFT、机器人实验室)集成以加速计算流程。最后,对比被动响应式方法与具备自主性、记忆与工具使用能力的智能体设计,勾勒出通往安全、自主LLM智能体的实用路线图。
LLM智能体
材料发现
提及记忆作为智能体实现长期目标的关键组件之一,但非核心研究重点。
分享
夯
0
拉
0
Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints
Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton
本地部署的小型语言模型(SLMs)需在严格的内存与计算约束下持续支持多样化任务,因此不可避免地需选择性依赖云端大语言模型(LLMs)。在持续学习过程中调控云协助具有挑战性,因为基于奖励的强化学习常导致不稳定的卸载行为,并在任务分布变化时加剧灾难性遗忘。本文提出DA-GRPO方法,作为Group Relative Policy Optimization的双优势扩展,将云使用约束直接融入优势函数计算,避免固定奖励塑形和外部路由模型。该设计使本地模型能联合学习任务能力与协作行为,使云请求在训练后自然出现,同时满足预设的协助预算。在数学推理与代码生成基准上的实验表明,DA-GRPO相比现有协同与路由方法显著提升任务切换后的准确率、大幅减少遗忘,并保持稳定的云使用量。
持续学习
云边协同
涉及本地模型在内存限制下的持续学习,与Agent Memory间接相关。
分享
夯
0
拉
0
SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents
Yifeng Ding, Lingming Zhang
测试时扩展已被广泛用于提升大语言模型(LLM)智能体在软件工程任务中的能力,但传统方法通过从头反复采样轨迹导致计算开销巨大。现有方法虽尝试引入专用价值评估模型以降低成本,却易受模型校准偏差影响,且难以泛化至能合成自定义bash脚本工具的现代智能体。本文提出SWE-Replay,首个无需依赖潜在噪声价值估计、高效且可泛化的测试时扩展技术。该方法通过复用先前试验中的轨迹,在关键中间步骤动态选择从头探索或利用存档经验进行分支,其分支决策基于代码仓库探索的潜力与推理重要性,而非外部LLM的质量评估。实验表明,在SWE-Bench Verified上,SWE-Replay在降低最多17.4%成本的同时,性能提升最高达3.8%;在SWE-Bench Pro和Multilingual上的进一步验证证实了其良好泛化能力。
Agent Memory
Test-Time Scaling
利用轨迹重放机制复用历史经验,涉及记忆存储与检索,但非核心记忆架构研究。
分享
夯
0
拉
0
The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR
Irsyad Adam, Zekai Chen, David Laprade, Shaun Porwal, David Laub et al.
基于下一词预测训练的大语言模型(LLMs)在临床基础模型中取得成功,其表征在多种生物医学任务中表现优异。然而,该范式将患者视为待总结的文档,而非需模拟的动态系统。为此,作者提出SMB-Structure——一种结合联合嵌入预测架构(JEPA)与监督微调(SFT)的世界模型。SFT使模型能在token空间重建未来患者状态,而JEPA仅从初始表征在潜在空间预测未来状态,迫使模型在观测下一状态前编码轨迹动态。在两个大规模队列(MSK和INSPECT)上的实验表明,该方法学习到的嵌入能捕捉自回归基线无法恢复的疾病动态,在高异质性患者任务中表现优异。
世界模型
电子健康记录
涉及状态表征与轨迹建模,隐含记忆机制但未显式研究Agent Memory。
分享
Code
夯
0
拉
0
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu et al.
尽管大语言模型在现有基准上表现优异,其能否对真正新颖的科学信息进行推理仍不明确。当前评估多针对端到端RAG流程,混淆了推理、检索及工具链选择,并受参数化记忆和网络内容波动干扰。本文提出DeR2——一个受控的深度研究沙盒,通过四个证据访问机制(仅指令、概念、相关文档、完整文档集)隔离基于文档的推理,同时保留深度搜索的核心挑战:多步综合、去噪与基于证据的结论生成。DeR2可量化检索损失与推理损失,并支持细粒度错误归因。为防止参数泄露,采用两阶段验证机制;为确保可复现性,每个实例提供冻结的2023–2025年理论论文库及专家标注的概念与推理依据。实验表明,前沿模型在该基准上表现差异显著,存在模式切换脆弱性或结构性概念误用等问题。
检索增强生成
推理评估
聚焦检索与推理解耦,涉及记忆机制但非核心研究记忆架构。
分享
夯
0
拉
0
FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning
Xiaoyu Xu, Minxin Du, Kun Fang, Zi Liang, Yaxin Xiao et al.
大语言模型(LLMs)虽在多种任务中表现卓越,却引发隐私、版权及有害内容等担忧。现有遗忘方法很少考虑现实场景中持续且高频的删除请求,易导致效用下降与灾难性遗忘。为此,本文提出FIT框架,通过严格的数据过滤(Filtering)、重要性感知更新(Importance-aware updates)和目标层归因(Targeted layer attribution),在大量连续删除请求下有效平衡遗忘效果与效用保留,并抵御遗忘后恢复攻击。作者还构建了PCH基准,涵盖个人信息、版权与有害内容的序列删除场景,并引入对称指标“遗忘度”(F.D.)与“保留效用”(R.U.)进行综合评估。实验表明,FIT在四个开源LLM上均取得最优权衡,并在MMLU、CommonsenseQA和GSM8K等任务中超越现有方法。
持续学习
模型遗忘
涉及持续学习中的遗忘与记忆保留机制,属记忆相关但非核心Agent Memory架构研究。
分享
夯
0
拉
0
Meta Context Engineering via Agentic Skill Evolution
Haoran Ye, Xuning He, Vincent Arak, Haonan Dong, Guojie Song
大语言模型的运行效能高度依赖其推理时的上下文,这促使上下文工程(CE)成为优化输入的正式学科。现有CE方法依赖人工设计的固定流程和预定义模式,存在结构偏见且限制了优化空间。本文提出元上下文工程(MCE),一种双层框架,通过协同演化CE技能与上下文工件,取代静态启发式方法。在MCE迭代中,元层智能体通过智能体交叉操作,在技能历史、执行记录与评估结果中进行深思熟虑的搜索以优化工程技能;基底层智能体则执行这些技能,从训练轨迹中学习,并将上下文优化为灵活的文件与代码。在五个不同领域及离线/在线设置下的实验表明,MCE相较当前最先进的智能体CE方法平均提升16.9%(相对提升5.6%–53.8%),同时在上下文适应性、迁移性及使用与训练效率方面表现更优。
上下文工程
智能体技能演化
论文聚焦上下文工程优化,涉及Agent在推理时对上下文(可视为短期记忆)的动态管理与演化,但未直接研究记忆机制本身。
分享
夯
0
拉
0
BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents
Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang et al.
图形用户界面(GUI)智能体旨在自动化重复性任务以提升效率,但现有方法在探索路径出错后难以恢复,常导致任务失败。本文将GUI任务执行建模为深度优先搜索(DFS)过程,提出BEAP-Agent框架,支持长距离、多层次的状态回溯,并结合动态任务跟踪与更新机制。该框架由规划器(Planner)、执行器(Executor)和追踪器(Tracker)三个协同组件构成,有效提升任务探索与执行能力。BEAP-Agent填补了GUI智能体系统化回溯机制的空白,为长视野任务探索提供系统性解决方案。在OSWorld基准上的系统评估显示,该方法达到28.2%的准确率,验证了其有效性。
GUI智能体
状态回溯
任务规划
长视野执行
提出多层级状态回溯机制,隐含短期记忆与状态追踪,但未显式研究记忆架构。
分享
夯
0
拉
0
Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement
Kaiyuan Wu, Aditya Nagori, Rishikesan Kamaleswaran
本文提出一种可自改进、支持可选缓存的规划者-审核者(Planner-Auditor)框架,用于提升临床出院规划的安全性与可靠性。规划者(LLM)生成结构化出院计划并附带置信度估计;审核者为确定性模块,评估任务覆盖度、校准性(Brier分数、ECE代理指标)及动作分布漂移。框架支持两种自改进机制:单次会话内重生成与跨会话高置信低覆盖案例的差异缓冲回放。实验表明,自改进循环显著提升任务覆盖率(32%→86%)并改善置信校准,差异缓冲有效修正持续性高置信遗漏。
Agent Memory
Clinical Decision Support
论文涉及可选缓存(optional caching)和回放机制,属于记忆相关应用,但非核心研究。
分享
夯
0
拉
0
ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference
Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani
近期低秩适配(LoRA)技术实现了大语言模型(LLM)的高效微调,但现有方法对所有输入token采用静态秩配置,忽视了token复杂度与计算需求的差异。本文提出ChunkWise LoRA,一种动态自适应方法,根据token复杂度将序列划分为可变长度块,并为每块分配定制化的低秩配置。系统引入运行时调度器,通过难度估计、自适应分块及基于秩阶梯机制的配置选择实现优化。为保障输出一致性,设计了边界安全组合模块并集成策略驱动的KV缓存策略。在Wikitext-103和SQuAD等基准上的实验表明,该方法相较基线LoRA最多降低34%延迟、减少38%内存占用,同时维持或提升BLEU、EM和困惑度等指标。该框架完全兼容现有Transformer架构与推理系统,适用于实际部署。
低秩适配
内存优化
聚焦LLM推理中的内存效率优化,涉及KV缓存策略,但非Agent Memory核心机制。
分享
夯
0
拉
0
Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery
Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang et al.
现有鲁棒强化学习方法通常聚焦于抑制不可靠经验或被污染的奖励,却缺乏对自身学习过程可靠性的推理能力,易因噪声过度保守或在不确定性累积时发生灾难性失败。本文提出一种元认知强化学习框架,使智能体能基于内部估计的可靠性信号评估、调节并恢复其学习行为。该方法引入由价值预测误差稳定性(VPES)驱动的元信任变量,通过故障安全调控与渐进式信任恢复机制调制学习动态。在存在奖励污染的连续控制基准实验中,该方法相比强鲁棒性基线取得了更高的平均回报,并显著减少了训练后期的失败率。
元认知
强化学习
涉及内部可靠性信号与学习行为调节,隐含记忆机制但未显式研究记忆。
分享
夯
0
拉
0
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.
当前人工智能系统缺乏部署后持续学习的能力,而实现此类系统面临诸多挑战,其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略(ES)作为一种无梯度替代方法近期重新受到关注,并在特定任务中展现出良好性能。本文对ES进行了全面分析,重点评估其在不断增加更新步数下的遗忘曲线。研究发现,在相近计算预算下,ES在数学与推理任务上可接近GRPO的性能,但其性能提升伴随着对先前能力的显著遗忘,限制了其在线训练适用性。进一步分析表明,ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级,解释了二者遗忘行为的差异。
灾难性遗忘
持续学习
研究持续学习中的遗忘问题,涉及记忆保持机制。
分享
夯
0
拉
0
From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models
Youmi Ma, Naoaki Okazaki
机制可解释性研究已识别出一类特殊的注意力头——检索头(retrieval heads),其负责从上下文中检索信息。然而,这些检索头对模型性能的贡献尚未被充分探索。本文研究了如何利用检索头提升大语言模型的长上下文能力,并提出RetMask方法:通过对比正常模型输出与屏蔽检索头后的消融模型输出,生成训练信号。该基于机制的方法在Llama-3.1上于128K上下文长度下,在HELMET基准上提升2.28分,引用生成任务提升70%,段落重排序提升32%,同时保持通用任务性能。跨三个模型家族的实验表明,效果取决于检索头的组织方式:集中式模式响应显著,而分布式模式增益有限。该结果验证了检索头的功能,并证明机制洞察可转化为性能提升。
检索机制
长上下文建模
研究涉及上下文信息检索机制,与记忆机制相关但非核心Agent Memory架构。
分享
夯
0
拉
0
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang et al.
ZhongXiang Sun (Renmin University of China)
个性化大语言模型(LLMs)通过适配用户个体行为以提升满意度,但可能无意中扭曲事实推理。本文发现,当面对事实性查询时,个性化LLM倾向于生成与用户历史偏好一致而非客观真实的答案,导致“个性化诱导幻觉”,损害事实可靠性并可能传播错误信念,其根源在于个性化表征与事实表征之间的表征纠缠。为此,作者提出一种轻量级推理时方法——保真个性化引导(FPPS),在保留个性化行为的同时缓解事实扭曲。此外,构建了首个联合评估个性化与事实问答能力的基准PFQABench。在多种LLM架构和个性化方法上的实验表明,FPPS显著提升事实准确性,同时维持个性化性能。
个性化大语言模型
幻觉缓解
涉及个性化记忆对事实推理的干扰,属记忆相关机制研究。
分享
夯
0
拉
0
Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure
Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.
从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要,但现有遗忘方法常将行为抑制误认为真正知识移除,导致潜在能力仍存。本文提出知识免疫框架(KIF),通过靶向内部激活签名而非表面输出,区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配,在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果,突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型,揭示不同架构在遗忘行为上的根本差异,并提出结合表面泄露与潜在痕迹的双指标评估协议,首次系统诊断跨模型家族与规模的机制级遗忘行为。
知识遗忘
激活签名
涉及模型内部表征的遗忘机制,与记忆擦除相关但非Agent Memory核心。
分享
夯
0
拉
0
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.
多智能体系统已发展为由大语言模型驱动的实用协作者,在多样性与交叉验证中提升鲁棒性。然而,多智能体强化学习(MARL)训练成本高且不稳定:协同适应导致环境非平稳,奖励信号稀疏且方差大。为此,本文提出多智能体测试时强化学习(MATTRL)框架,在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论,检索并整合测试时经验,最终达成共识决策。研究还探讨了轮次级信用分配机制,用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上,MATTRL相较多智能体基线平均提升准确率3.67%,相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。
多智能体系统
测试时学习
经验重用
大语言模型
论文涉及在推理时注入结构化经验,属于记忆机制的应用,但非核心记忆架构研究。
分享
夯
0
拉
0
SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams
Chenglong Wang, Canjia Li, Xingzhao Zhu, Yifu Huo, Huiyu Wang et al.
由于现实世界查询流具有动态演化特性,相关性模型难以泛化到实际搜索场景。现有自演化方法在大规模工业环境中面临两大挑战:(1)信息量丰富的样本稀疏且难以识别;(2)当前模型生成的伪标签不可靠。为此,本文提出自演化相关性模型(SERM),包含两个互补的多智能体模块:多智能体样本挖掘器用于检测分布偏移并识别信息量大的训练样本,多智能体相关性标注器通过两级共识机制提供可靠标签。在日均处理数十亿用户请求的大规模工业系统中评估表明,SERM通过迭代自演化显著提升性能,经多语言离线评估与在线测试验证有效。
多智能体系统
自演化学习
涉及多智能体协作中的信息筛选与标注,隐含记忆机制但未显式研究记忆架构。
分享
夯
0
拉
0
What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding
Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.
大型语言模型(LLM)智能体在复杂决策与工具使用任务中展现出卓越能力,但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标,却忽视了智能体是否具备可迁移、具身化的环境模型。为此,本文提出Task-to-Quiz(T2Q)范式,通过确定性、自动化的问答机制将任务执行与环境状态理解解耦,并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明,任务成功常不能反映真实环境理解水平,且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈,为开发更具泛化能力的自主智能体奠定基础。
Agent Memory
Environment Understanding
论文指出当前记忆机制无法有效支持环境建模,Memory是关键但非核心主题。
分享
夯
0
拉
0
Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR
Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.
Yihong Tang (Harbin Institute of Technology, Shenzhen)
当前角色扮演智能体(RPAs)通常通过模仿表层行为构建,缺乏内在认知一致性,易在复杂情境中出现“出戏”错误。为此,本文提出Character-R1框架,旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计:(1)认知焦点奖励,通过显式标签分析10个角色要素(如世界观)以结构化内部认知;(2)参考引导奖励,利用与参考回答的重叠度指标作为优化锚点,提升探索与性能;(3)角色条件奖励归一化,依据角色类别调整奖励分布,确保异构角色下的鲁棒优化。大量实验表明,Character-R1在知识、记忆等方面显著优于现有方法。
角色扮演智能体
强化学习
论文提及memory作为评估维度之一,但核心聚焦于角色一致性奖励机制。
分享
夯
0
拉
0
Plenoptic Video Generation
Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.
尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展,但在多视角场景下仍难以维持时空一致性,尤其在生成模型固有随机性导致的幻觉区域。为此,本文提出PlenopticDreamer框架,通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型,并结合相机引导的视频检索策略,自适应选取先前生成中的显著视频作为条件输入。此外,该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化,并支持长视频条件生成。在Basic和Agibot基准上的实验表明,PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。
视频生成
时空一致性
提出“spatio-temporal memory”概念用于多视角视频生成一致性,属记忆机制应用。
分享
夯
0
拉
0
Agent-as-a-Judge
Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.
大语言模型作为裁判(LLM-as-a-Judge)通过利用大语言模型实现了可扩展的AI评估,但随着被评估对象日益复杂、专业化和多步骤化,其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此,研究转向“以智能体为裁判”(Agent-as-a-Judge),其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆,实现更稳健、可验证且细致的评估。尽管此类系统迅速发展,领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述,提出刻画范式转变的关键维度与发展阶段分类法,梳理核心方法并覆盖通用与专业领域的应用,同时分析前沿挑战并指明未来研究方向。
Agent Memory
AI Evaluation
论文将持久记忆作为Agent-as-a-Judge的关键能力之一,但非核心研究主题。
分享
夯
0
拉
0
Nalar: An agent serving framework
Marco Laju, Donghyun Son, Saurabh Agarwal, Nitin Kedia, Myungjin Lee et al.
由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务,但其高效服务仍面临挑战,包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架,清晰分离工作流定义与执行,并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力,通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦,支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行,实现对动态演进工作流的自适应路由、调度与资源管理。实验表明,Nalar在三个智能体工作负载上显著降低尾部延迟(34%–74%),最高提速2.9倍,在基线系统失效时仍可维持80 RPS,并能扩展至13万Future对象且控制开销低于500毫秒。
智能体服务
状态管理
论文提出托管状态层以解耦逻辑状态与物理存储,涉及Agent Memory机制但非核心焦点。
分享
夯
0
拉
0
Challenges and Research Directions for Large Language Model Inference Hardware
Xiaoyu Ma, David Patterson
大语言模型(LLM)推理具有显著挑战性,其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响,当前主要瓶颈在于内存与互连,而非计算能力。为应对这些挑战,本文提出四项架构研究方向:高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽;近存计算与3D内存-逻辑堆叠以提升内存带宽;以及低延迟互连以加速通信。尽管聚焦数据中心AI场景,本文也探讨了上述技术在移动设备中的适用性。
LLM推理
硬件架构
聚焦LLM推理中的内存瓶颈,但非针对Agent Memory机制。
分享
夯
0
拉
0
Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites
Ziyao Yi, Davide Piccinini, Diego Valsesia, Tiziano Bianchi, Enrico Magli
下一代地球观测卫星需在载荷端部署智能模型以降低地面段传输与处理延迟。本文针对星载高光谱成像场景,提出一种兼顾高质量推理、动态功耗可扩展性与容错能力的神经网络架构。该方法采用多个去噪器的混合结构,具备抗辐射故障能力并支持时变功耗调节;每个去噪器以因果方式逐行处理图像,并保留对先前行的记忆,契合推扫式传感器的数据采集过程,显著降低内存占用。实验表明,该架构可在低功耗硬件上实现实时处理(一行处理时间不超过下一行采集时间),且去噪性能媲美更复杂的先进模型。
星载计算
高光谱图像去噪
论文提出基于行处理的因果架构,利用对前序行的记忆以降低内存需求,涉及有限记忆机制但非LLM Agent核心记忆研究。
分享
夯
0
拉
0
Higher-Order Knowledge Representations for Agentic Scientific Reasoning
Isabella A. Stewart, Markus J. Buehler
科学探究需要整合异构实验数据、跨领域知识与机制证据以形成连贯解释。尽管大语言模型具备推理能力,但其依赖的检索增强上下文常缺乏结构深度。传统知识图谱因仅建模二元关系,难以捕捉决定涌现物理行为的不可约高阶交互。本文提出基于超图的知识表示方法,可忠实编码多实体关系。在约1,100篇生物复合支架文献上构建的全局超图包含161,172个节点与320,201条超边,呈现无标度拓扑(幂律指数约1.23),围绕高度连接的概念枢纽组织。该表示避免了二元扩展导致的组合爆炸,并保留科学表述的共现语境。结合超图遍历工具(如节点交集约束),智能体可连接语义遥远概念,成功生成如通过壳聚糖中介将氧化铈与PCL支架关联的机制性假设。该“无教师”智能体系统以超图拓扑为可验证约束,加速发现被传统图方法掩盖的关系。
超图
智能体推理
论文涉及知识表示与检索机制,支撑Agent推理,但未直接研究记忆架构。
分享
夯
0
拉
0
RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection
Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng et al.
跨领域虚假信息检测具有挑战性,因虚假信息在不同领域间存在显著的知识与话语差异。现有方法多依赖单一视角线索,难以泛化至困难或代表性不足的领域;而推理型大语言模型虽在复杂任务中有效,却受限于同分布数据假设。为此,本文提出RAAR——首个面向跨领域虚假信息检测的检索增强型智能体推理框架。RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源域证据,实现超越同分布假设的跨域迁移;并通过多智能体协作构建可验证的多步推理路径,其中各视角专用智能体生成互补分析,摘要智能体在验证器指导下进行整合。此外,RAAR采用监督微调与强化学习训练单一多任务验证器以提升推理与验证能力。基于该框架训练的RAAR-8b与RAAR-14b模型在三项跨领域虚假信息检测任务上显著优于基线模型、先进大语言模型及适配方法。
检索增强
多智能体系统
涉及检索增强机制,属于记忆相关应用,但非核心记忆架构研究。
分享
Code
夯
0
拉
0
OptiSet: Unified Optimizing Set Selection and Ranking for Retrieval-Augmented Generation
Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.
检索增强生成(RAG)通过引入从大型外部语料库中检索到的证据来提升生成质量。然而,现有方法通常基于单个相关性静态选取前k个段落,未能利用段落间的组合增益,且常引入大量冗余。为此,本文提出OptiSet——一种以集合为中心的框架,统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式:首先将查询扩展为多个视角以构建多样化的候选池,再通过重选精炼形成紧凑的证据集;并设计了一种无需强LLM监督的自合成策略,从生成器的集合条件效用变化中推导偏好标签,识别互补与冗余证据;最后引入集合列表式训练策略,联合优化集合选择与排序,使模型偏好紧凑且高增益的证据集。大量实验表明,OptiSet在复杂组合问题上性能更优,且提升生成效率。
检索增强生成
证据选择
涉及RAG中的证据选择与冗余处理,属记忆检索优化,但未聚焦Agent Memory机制本身。
分享
夯
0
拉
0
LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou et al.
视觉-语言-动作(VLA)模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性,但会引入显著推理延迟,并受限于语言表征瓶颈,难以刻画不可言传的物理属性。为此,本文提出LaST₀框架,通过隐式的时空思维链(Latent Spatio-Temporal Chain-of-Thought)实现高效推理,捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间,建模未来视觉动态、三维结构信息及机器人本体感知状态,并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计:推理专家执行低频隐式推理,动作专家基于面向机器人的隐式表征生成高频动作,并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中,LaST₀相较先前VLA方法平均成功率分别提升8%和13%,同时显著加快推理速度。
隐式推理
机器人操作
提出隐式时空推理轨迹,涉及状态记忆与时间一致性,但未聚焦传统记忆机制。
分享
夯
0
拉
0
EvoRoute: Experience-Driven Self-Routing LLM Agent Systems
Guibin Zhang, Haiyang Yu, Kaiming Yang, Bingli Wu, Fei Huang et al.
由多个大语言模型(LLMs)、工具和记忆模块协同构成的复杂智能体系统在多轮复杂任务中展现出卓越能力,但其高昂成本与严重延迟揭示了性能、成本与速度之间的关键权衡难题,即“智能体系统三难困境”。为此,本文提出EvoRoute——一种自演化的模型路由范式,通过不断积累的先验经验知识库,在每一步动态选择帕累托最优的LLM主干模型,平衡准确性、效率与资源消耗,并利用环境反馈持续优化自身路由策略。在GAIA和BrowseComp+等挑战性基准上的实验表明,EvoRoute集成至现成智能体系统后,不仅维持或提升性能,还可降低执行成本高达80%,减少延迟超70%。
LLM Agent
Model Routing
论文提及memory模块作为系统组件,但聚焦于模型路由优化而非记忆机制本身。
分享
夯
0
拉
0
SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training
Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le et al.
在本技术报告中,我们提出了SWE-Master,一个开源且可完全复现的后训练框架,用于构建高效的软件工程代理。SWE-Master系统性地探索了完整的代理开发流程,包括教师轨迹合成与数据整理、长时域的监督微调(SFT)、结合真实执行反馈的强化学习(RL)以及推理框架设计。从一个具有有限初始软件工程能力的开源基础模型出发,SWE-Master展示了系统优化方法如何激发强大的长时域软件工程任务解决能力。我们在SWE-bench Verified基准上对SWE-Master进行了评估,该基准是针对现实软件工程任务的标准测试集。在相同的实验设置下,使用Qwen2.5-Coder-32B模型,我们的方法达到了61.4%的解决率,显著优于现有的开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展(TTS),SWE-Master在TTS@8时达到70.8%,显示出强劲的性能潜力。SWE-Master为推进软件工程代理的可复现研究提供了实用且透明的基础。
软件工程代理
后训练
强化学习
SWE-bench
论文涉及Agent训练与推理过程,但未明确讨论Memory机制。
分享
夯
0
拉
0
CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability
Xianzhen Luo, Jingyuan Zhang, Shiqi Zhou, Rain Huang, Chuan Xiao et al.
评估和提升代码智能体的安全能力需要高质量、可执行的漏洞任务。然而现有研究依赖于昂贵且不可扩展的手动复现,并面临数据分布过时的问题。为解决这些问题,我们提出了CVE-Factory,这是首个多智能体框架,能够自动将稀疏的CVE元数据转换为高质量的可执行智能体任务。通过与人工专家复现的交叉验证,CVE-Factory实现了95%的解决方案正确率和96%的环境保真度,证明了其专家级质量。该方法在最新的真实漏洞上也取得了66.2%的验证成功率。自动化还带来了两个下游贡献:首先,构建了LiveCVEBench,这是一个持续更新的基准测试集,包含190个任务,涵盖14种语言和153个仓库,捕捉新兴威胁包括AI工具漏洞;其次,合成了超过1,000个可执行训练环境,首次实现了代码安全领域智能体任务的大规模扩展。微调后的Qwen3-32B模型在LiveCVEBench上的表现从5.3%提升至35.8%,超越了Claude 4.5 Sonnet,且提升效果可推广到Terminal Bench(12.5%至31.3%)。我们开源了CVE-Factory、LiveCVEBench、Abacus-cve(微调模型)、训练数据集和排行榜。所有资源均可在https://github.com/livecvebench/CVE-Factory获取。
代码安全
智能体任务生成
漏洞检测
基准测试
论文涉及Agent任务生成与执行,但未直接探讨Memory机制。
分享
夯
0
拉
0
Indications of Belief-Guided Agency and Meta-Cognitive Monitoring in Large Language Models
Noam Steinmetz Yalon, Ariel Goldstein, Liad Mudrik, Mor Geva
大型语言模型(LLMs)的快速发展引发了关于其是否具备某种意识形式的讨论。本文基于Butlin等人(2023)提出的意识指标,重点评估其中HOT-3指标——即由通用信念形成与行动选择系统引导的能动性,该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中对输入响应而产生的表征,并引入量化其在生成过程中主导性的度量。跨模型与任务的信念动态分析揭示三点发现:(1)外部干预可系统性调节内部信念形成;(2)信念形成因果驱动行动选择;(3)模型能监控并报告自身信念状态。结果为LLMs中存在信念引导的能动性与元认知监控提供了实证支持,并为研究LLMs中能动性、信念与元认知的涌现奠定了方法论基础。
信念表征
元认知监控
涉及信念表征与元认知监控,间接关联记忆机制但非核心。
分享
夯
0
拉
0
Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model
Kangtao Lv, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang et al.
大语言模型(LLMs)在长上下文场景中的部署受限于计算效率低下和信息冗余。尽管上下文压缩已被广泛采用,但现有研究多聚焦于模型侧改进,忽视了数据分布本身对压缩效果的影响。本文首次从数据中心视角系统探究输入数据与模型内在预训练知识(即内在数据)的分布如何影响压缩质量。通过基于自编码器的框架评估压缩表示的语义完整性,实验发现:(1)编码器测得的输入熵与压缩质量呈负相关,而解码器测得的熵在冻结解码器设置下无显著关联;(2)编码器与解码器内在数据之间的差距显著削弱压缩收益,且难以缓解。基于此,作者提出了优化压缩效果的实用指南。
上下文压缩
数据分布
涉及上下文压缩对信息保留的影响,间接关联记忆机制。
分享
夯
0
拉
0
When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh et al.
尽管检索增强生成(RAG)是提升大视觉语言模型(LVLMs)在知识型视觉问答任务中表现的主流范式,但近期研究将RAG失败归因于对检索上下文的注意力不足,并建议减少分配给图像标记的注意力。本文识别出一种先前被忽视的失败模式——注意力分散(Attention Distraction, AD):当检索到的上下文充分时,其文本内容会全局抑制视觉注意力,导致模型对图像中与问题相关区域的关注减弱,从而在原本无需检索即可正确回答的问题上出现错误。为此,作者提出MAD-RAG方法,一种无需训练的干预策略,通过双问题形式解耦视觉定位与上下文整合,并结合注意力混合以保留图像条件证据。在OK-VQA、E-VQA和InfoSeek上的大量实验表明,MAD-RAG在不同模型家族中均显著优于现有基线,最高带来4.76%、9.20%和6.18%的绝对提升,并能修正高达74.68%的失败案例,且计算开销可忽略。
RAG
视觉语言模型
涉及检索增强中的注意力机制,与记忆使用相关但非核心记忆架构研究。
分享
夯
0
拉
0
Probing the Trajectories of Reasoning Traces in Large Language Models
Marthe Ballon, Brecht Verbeken, Vincent Ginis, Andres Algaba
大语言模型(LLMs)常通过生成“推理轨迹”来解决复杂问题,但尚不清楚其准确性与决策确定性如何随推理过程演变,以及中间轨迹是否包含超越长度或风格效应的答案相关信息。本文提出一种系统性探查协议:生成模型推理轨迹,在固定token百分位截断,并将各部分重新注入模型以通过下一token概率评估答案分布。在Qwen3和gpt-oss系列模型上的GPQA Diamond与MMLU-Pro基准测试表明,随着提供推理token比例增加,准确率与决策确定性持续提升,且主要源于生成内容的相关性而非上下文长度或通用“推理风格”。强模型能从错误轨迹中有效回退,而弱模型的答案易被早期错误锚定。该方法可为推理模型的安全高效部署提供诊断依据。
推理轨迹
大语言模型
决策演化
模型诊断
研究推理轨迹中信息演化,间接涉及记忆机制但非核心。
分享
夯
0
拉
0
Context Structure Reshapes the Representational Geometry of Language Models
Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen
大型语言模型(LLMs)在深层网络中将输入序列的表征组织为更“笔直”的神经轨迹,这被认为有助于通过线性外推进行下一词预测。本文结合表征笔直化与上下文学习(ICL)研究,考察ICL过程中上下文内部是否发生表征笔直化。在Gemma 2模型上对多种ICL任务的分析揭示了两种模式:在连续预测任务(如自然语言、网格世界遍历)中,上下文长度增加会提升轨迹笔直度,并与预测性能正相关;而在结构化预测任务(如少样本学习)中,笔直化仅出现在具有显式结构的阶段(如模板重复),其他阶段则消失。结果表明ICL并非单一过程,LLM会根据任务结构动态选择策略,仅部分策略导致表征笔直化。
in-context learning
representational geometry
探讨上下文中的表征变化,间接关联记忆机制但非核心。
分享
夯
0
拉
0
PersonaCite: VoC-Grounded Interviewable Agentic Synthetic AI Personas for Verifiable User and Design Research
Mario Truss
Mario Truss (AdobeGermany)
基于大语言模型(LLM)和智能体的合成角色日益用于设计与产品决策,但现有研究表明,基于提示的角色常生成具有说服力却不可验证的回应,掩盖其证据基础。本文提出PersonaCite——一种通过检索增强交互将AI角色重构为证据受限研究工具的智能体系统。与依赖提示角色扮演的先前方法不同,PersonaCite在每次对话轮次中检索真实的用户之声(Voice-of-Customer)素材,将回应严格限定于检索到的证据,在证据缺失时明确拒绝回答,并提供逐条回应的来源引用。通过对14位行业专家的半结构化访谈与部署研究,初步识别了其感知优势、有效性疑虑与设计张力,并提出“角色溯源卡”作为人本设计流程中负责任使用AI角色的文档模式。
检索增强生成
可验证AI
人本设计
合成角色
涉及检索增强机制,与记忆中的信息存储和引用相关,但非核心记忆架构研究。
分享
夯
0
拉
0
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong et al.
注意力模式在大语言模型(LLMs)的训练与推理中至关重要。以往研究识别出检索头、汇聚头和对角线轨迹等个别模式,但缺乏统一解释。本文提出时序注意力模式可预测性分析(TAPPA),从连续时间视角出发,通过数学形式化统一解释多样注意力模式。TAPPA将注意力模式分为具有明确规律的可预测模式与近似随机的不可预测模式,并揭示该区分源于查询在时序维度上的自相似程度。针对可预测模式,作者结合查询、键与旋转位置编码(RoPE)进行详细数学分析。实验表明,基于TAPPA启发的简单指标在KV缓存压缩与LLM剪枝任务中持续优于基线方法。
注意力机制
KV缓存优化
论文分析注意力模式可预测性,间接关联KV缓存压缩,涉及记忆机制但非核心。
分享
Code
夯
0
拉
0
Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves
Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting
深度递归通过跨深度共享参数促进潜在推理,但现有工作缺乏在FLOP、参数量和内存方面匹配的基线,且因部分固定层堆叠而未能充分利用深度递归,并忽视了恒定隐藏维度对多步潜在推理的瓶颈。为此,我们提出一种模块化框架——深度递归注意力混合(Dreamer),融合序列注意力、深度注意力与稀疏专家注意力。该方法通过沿深度维度的注意力缓解隐藏维度瓶颈,解耦缩放维度,使深度递归模型能高效有效扩展。在语言推理基准上,该模型达到相同准确率所需训练token数仅为匹配基线的1/2至1/8,并以相同训练量超越约2倍规模的最先进模型。此外,我们揭示了不同深度间知识使用的特性,例如专家选择多样性比现有MoE模型高2至11倍。
深度递归
注意力机制
涉及深度递归中的隐状态管理,与记忆机制间接相关。
分享
夯
0
拉
0
Textual Equilibrium Propagation for Deep Compound AI Systems
Minghui Chen, Wenlong Deng, James Zou, Han Yu, Xiaoxiao Li
大语言模型(LLMs)越来越多地被部署于协调多个模块(如检索器、工具、验证器)的复合AI系统中,执行长周期工作流。现有基于全局文本反馈传播的方法(如TextGrad)在系统深度增加时性能下降,表现为“文本梯度爆炸”和“文本梯度消失”两种失效模式。为此,本文提出文本均衡传播(TEP),受能量模型中均衡传播启发,包含自由相(局部LLM批评者迭代优化提示至均衡)和扰动相(通过前向信号而非反向链进行有界提示编辑)。该方法在长程问答和多智能体工具使用任务中优于TextGrad,且随系统深度提升效果更显著,同时保持黑盒LLM组件的实用性。
Agent Memory
Compound AI Systems
涉及长程信息传递与上下文压缩,间接关联记忆机制。
分享
夯
0
拉
0
Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.
尽管强化学习(RL)已推动大语言模型(LLM)的推理能力,但在长上下文场景中仍受限于结果奖励的稀疏性,难以惩罚无依据的“幸运猜测”,导致关键的“大海捞针”式证据检索过程缺乏监督。为此,本文提出EAPO(Evidence-Augmented Policy Optimization)。首先确立证据增强推理范式,并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法,由奖励模型计算群体相对证据奖励,提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性,进一步设计自适应奖励-策略协同进化机制,利用结果一致的rollout迭代优化奖励模型,增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明,EAPO显著优于当前最先进基线。
强化学习
长上下文推理
涉及证据检索与长期上下文处理,间接关联记忆机制。
分享
夯
0
拉
0
Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models
Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi
序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法,但现有实现存在明显局限:延长推理长度虽可提升准确率,但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek,在广泛推理长度范围内显著提升模型准确率,稳定序列缩放效果,并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对,具备内在高效性。通过定制化KV缓存(存储不含位置编码的键,并在每次生成新推理前动态连续编码),该方法可突破模型最大上下文长度限制,在温和条件下实现线性计算复杂度。
测试时缩放
KV缓存优化
涉及KV缓存管理与上下文扩展,属记忆机制应用层面。
分享
夯
0
拉
0
DocDancer: Towards Agentic Document-Grounded Information Seeking
Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao et al.
文档问答(DocQA)旨在回答基于给定文档的问题,但现有DocQA智能体缺乏有效的工具利用能力,且多依赖闭源模型。本文提出DocDancer,一个端到端训练的开源文档智能体。我们将DocQA建模为信息检索问题,并设计了一个工具驱动的智能体框架,显式建模文档探索与理解过程。为支持端到端训练,我们提出“探索-合成”数据合成流程,以缓解高质量DocQA训练数据稀缺问题。在MMLongBench-Doc和DocBench两个长上下文文档理解基准上的实验表明,所训练模型具有有效性。进一步分析为智能体工具设计与合成数据提供了有价值的见解。
文档问答
智能体工具使用
涉及文档探索与信息整合,隐含短期记忆机制,但未显式研究记忆架构。
分享
夯
0
拉
0
ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG
Jianbo Li, Yi Jiang, Sendong Zhao, Bairui Hu, Haochun Wang et al.
检索增强生成(RAG)有助于提升大语言模型的准确性,但将长文档输入提示会显著增加计算开销。为此,研究者提出了多种上下文压缩方法,如词元剪枝、摘要和嵌入压缩等。然而,过度压缩会导致模型难以理解信息。本文提出ArcAligner(自适应递归上下文对齐器),一种轻量级模块,集成于语言模型层中,以提升模型对高度压缩上下文表示的利用能力。其采用自适应“门控”机制,仅在信息复杂时增加计算,兼顾效率与性能。在多个知识密集型问答基准上,ArcAligner在相近压缩率下显著优于现有基线,尤其在多跳推理和长尾场景中表现突出。代码已开源。
RAG
上下文压缩
涉及压缩上下文表示,间接关联Agent记忆机制。
分享
夯
0
拉
0