Daily Paper by lightsmile

LLM/Agent 研究论文追踪报告 - 2026-02-22 20:41

0
论文总数
0
已分析
0
高相关
0
已分类
每日新增论文趋势 (近30天)
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen et al.
斯坦福大学 匹兹堡大学
10/10 2026-02-18 cs.CL PDF
现有的智能体记忆评估通常单独测试记忆和行动能力。一类基准通过测试对过去对话或文本的回忆来评估记忆,但未能体现记忆如何引导未来决策;另一类则关注单次会话任务,无需长期记忆。然而,在现实场景中,记忆与行动紧密耦合:智能体在与环境交互时获取记忆,并依赖该记忆解决后续任务。为此,本文提出MemoryArena,一个统一的评估框架,用于在多会话智能体-环境循环中基准测试智能体记忆。该基准包含由人工设计的具有显式相互依赖子任务的智能体任务,要求智能体从早期行动和反馈中提炼经验并存储到记忆中,随后利用这些记忆指导后续行动以完成整体任务。MemoryArena支持跨网页导航、偏好约束规划、渐进信息搜索和顺序形式推理的评估,并揭示了当前长上下文记忆基准(如LoCoMo)表现接近饱和的智能体在本基准中表现不佳,暴露出当前对记忆型智能体评估的不足。
Agent Memory Multi-Session Tasks Benchmark Evaluation Long-Term Memory
论文聚焦于Agent的记忆机制,设计了专门的基准测试以评估多会话任务中的记忆使用。
Code
Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling
Ji Li, Jing Xia, Mingyi Li, Shiyan Hu
北京航空航天大学
10/10 2026-02-17 cs.RO PDF
将多模态大语言模型(MLLM)部署为具身智能体的大脑仍面临挑战,特别是在长时序观察和有限上下文预算的情况下。现有基于记忆的方法通常依赖文本摘要,忽略了丰富的视觉和空间细节,在非平稳环境中表现脆弱。本文提出一种非参数化记忆框架,显式分离情景记忆和语义记忆,用于具身探索和问答任务。该方法首先通过语义相似性检索情景经验,并通过视觉推理验证,从而在无需严格几何对齐的情况下实现过去观察的鲁棒重用。同时,引入程序式规则提取机制,将经验转化为结构化的语义记忆,促进跨环境泛化。大量实验表明,该方法在具身问答和探索基准测试中达到最先进水平,在A-EQA数据集上LLM-Match提升7.3%,LLM MatchXSPL提升11.4%,在GOAT-Bench上成功率和SPL分别提升7.7%和6.8%。分析显示,情景记忆主要提升探索效率,而语义记忆增强了具身智能体的复杂推理能力。
具身智能体 记忆机制 多模态学习 视觉推理 语义记忆
论文核心围绕记忆机制展开,提出非参数化记忆框架,分离情景记忆与语义记忆,显著提升探索与问答性能。
Mnemis: Dual-Route Retrieval on Hierarchical Graphs for Long-Term LLM Memory
Zihao Tang, Xin Yu, Ziyu Xiao, Zengxuan Wen, Zelin Li et al.
Microsoft
10/10 2026-02-17 cs.CL PDF
AI记忆,特别是模型如何组织和检索历史信息,对大型语言模型(LLMs)日益重要。然而,现有方法(如RAG和Graph-RAG)主要依赖相似性检索机制,难以应对需要全局推理或全面覆盖相关信息的场景。本文提出Mnemis,一种新型的记忆框架,结合了System-1相似性搜索与互补的System-2机制——全局选择。Mnemis将记忆组织为一个基础图用于相似性检索,并构建一个分层图以实现语义层次的自上而下遍历。通过结合两种检索路径的优势,Mnemis能够检索出在语义和结构上均相关的信息项。实验表明,Mnemis在长期记忆基准测试中表现优异,在LoCoMo和LongMemEval-S数据集上分别达到93.9和91.6的得分(使用GPT-4.1-mini)。
长期记忆 图检索 双路径机制 语义层次 LLM记忆架构
论文聚焦于LLM的长期记忆机制,提出了一种新的记忆框架,直接针对记忆组织与检索问题。
Code
Choosing How to Remember: Adaptive Memory Structures for LLM Agents
Mingfei Lu, Mengjia Wu, Feng Liu, Jiawei Xu, Weikai Li et al.
墨尔本大学 加州大学洛杉矶分校
10/10 2026-02-15 cs.AI PDF
记忆对于使基于大语言模型(LLM)的代理在长期交互中保持连贯行为至关重要。然而,现有的代理记忆系统存在两个关键缺陷:它们依赖于统一的记忆结构,并未将记忆结构的选择建模为上下文自适应的决策,这限制了其处理异构交互模式的能力,导致性能不佳。本文提出了一种统一的框架FluxMem,使LLM代理能够实现自适应记忆组织。该框架为代理配备了多种互补的记忆结构,并根据交互级特征显式学习在这些结构之间进行选择,使用来自下游响应质量和记忆利用率的离线监督。为了支持稳健的长期记忆演化,我们进一步引入了一个三级记忆层次结构和基于Beta混合模型的概率门控机制,用于分布感知的记忆融合,以替代脆弱的相似性阈值。在两个长期交互基准测试PERSONAMEM和LoCoMo上的实验表明,我们的方法平均分别提升了9.18%和6.14%。
LLM Agent Memory Management Adaptive Systems Long-Horizon Interaction
论文聚焦于LLM代理的记忆机制,提出自适应记忆结构框架FluxMem,直接针对记忆组织和选择问题。
Neuromem: A Granular Decomposition of the Streaming Lifecycle in External Memory for LLMs
Ruicheng Zhang, Xinyi Li, Tianyi Xu, Shuhao Zhang, Xiaofei Liao et al.
中国科学技术大学计算机科学与技术学院
10/10 2026-02-15 cs.AI PDF
大多数对外部记忆模块的评估假设静态环境:记忆在离线状态下构建,并在固定状态下查询。然而,在实际应用中,记忆是流式的:新事实持续到达,插入与检索交替进行,记忆状态在模型处理查询时不断演变。在这种情况下,准确性和成本由完整的记忆生命周期决定,包括信息的摄入、维护、检索和生成集成。本文提出Neuromem,一个可扩展的测试平台,用于在交错插入与检索协议下评估外部记忆模块,并将其生命周期分解为五个维度,包括记忆数据结构、归一化策略、巩固策略、查询公式策略和上下文集成机制。通过LOCOMO、LONGMEMEVAL和MEMORYAGENTBENCH三个代表性数据集,Neuromem在共享服务栈内评估了可互换的变体,报告了词级F1和插入/检索延迟。总体来看,随着记忆在多轮中增长,性能通常下降,而时间相关查询仍然是最具挑战性的类别。记忆数据结构在很大程度上决定了可达到的质量边界,而激进的压缩和生成集成机制主要在插入和检索之间转移成本,但准确性提升有限。
external memory streaming data memory lifecycle LLM evaluation context integration
论文聚焦于LLM的外部记忆模块,研究其在流式数据下的生命周期管理,属于记忆机制的核心研究。
HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling
Xiaochen Zhao, Kaikai Wang, Xiaowen Zhang, Chen Yao, Aili Wang
ZHU-UIUC Institute, Zhejiang University / Ant Group
10/10 2026-02-15 cs.AI PDF
大型语言模型(LLM)代理在短文本场景中表现出色,但在长对话中常因记忆管理低效而表现不佳。现有方法面临效率与效果之间的根本性权衡:记忆压缩可能导致复杂推理所需的关键细节丢失,而保留原始文本则会为简单查询引入不必要的计算开销。问题的核心在于单一化的记忆表示和静态检索机制无法模拟人类灵活主动的记忆调度能力,难以适应多样化的场景。受认知经济原则启发,本文提出HyMem,一种通过多粒度记忆表示实现动态按需调度的混合记忆架构。HyMem采用双粒度存储方案与动态两级检索系统:轻量级模块构建摘要级上下文以提高响应生成效率,而基于LLM的深度模块仅在复杂查询时选择性激活,并辅以反思机制进行迭代推理优化。实验表明,HyMem在LOCOMO和LongMemEval基准测试中均取得优异性能,优于全上下文方法,同时将计算成本降低了92.6%,在长期记忆管理中实现了效率与性能的最先进平衡。
记忆架构 动态检索 长期记忆管理 LLM代理 认知经济
论文核心聚焦于LLM的记忆管理机制,提出混合记忆架构解决长期对话中的效率与效果平衡问题。
AllMem: A Memory-centric Recipe for Efficient Long-context Modeling
Ziming Wang, Xiang Wang, Kailong Peng, Lang Qin, Juan Gabriel Kostelec et al.
ACS Lab, Huawei Technologies Huawei Switzerland
10/10 2026-02-14 cs.AI PDF
大型语言模型(LLMs)在长序列任务中面临显著的性能瓶颈,这是由于自注意力机制固有的计算复杂性和内存开销所致。为了解决这些问题,我们引入了AllMem,这是一种新颖且高效的混合架构,结合了滑动窗口注意力(SWA)与非线性测试时训练(TTT)记忆网络。AllMem使模型能够有效扩展到超长上下文,同时减轻灾难性遗忘问题。该方法不仅克服了线性记忆模型的表示限制,还显著降低了长序列推理过程中的计算和内存消耗。此外,我们实现了一种记忆高效的微调策略,用记忆增强的滑动窗口层替换预训练模型中的标准注意力层。这一框架使得任何现成的预训练LLM都能高效地转换为基于AllMem的架构。实证评估表明,我们的4k窗口模型在37k LongBench上的表现几乎无损失,仅比全注意力模型下降0.83。此外,在128k上下文的InfiniteBench上,我们的8k窗口变体优于全注意力模型,验证了我们参数化记忆在降低噪声和保持稳健长距离建模方面的有效性,而无需全局注意力的高昂成本。
长上下文建模 记忆增强 滑动窗口注意力 测试时训练
论文核心围绕记忆机制展开,提出AllMem架构以解决长上下文建模中的记忆瓶颈问题。
Hippocampus: An Efficient and Scalable Memory Module for Agentic AI
Yi Li, Lianjie Cao, Faraz Ahmed, Puneet Sharma, Bingzhe Li
Hewlett Packard Enterprise (HPE) Networks and Distributed Systems Lab (NDS), The University of Texas at Dallas Hewlett Packard Enterprise (HPE) Labs
10/10 2026-02-14 cs.AI PDF
Agentic AI需要持久记忆来存储超出LLM有限上下文窗口的用户特定历史记录。现有的记忆系统使用密集向量数据库或知识图谱遍历(或混合),导致检索延迟高且存储扩展性差。我们引入了Hippocampus,一种基于紧凑二进制签名进行语义搜索、利用无损token-ID流进行精确内容重建的代理记忆管理系统。其核心是动态小波矩阵(DWM),该矩阵压缩并联合索引两种流,以支持在压缩域内进行超快速搜索,从而避免昂贵的密集向量或图计算。此设计随内存规模线性扩展,适用于长期代理部署。实证评估表明,Hippocampus将端到端检索延迟降低了高达31倍,并将每查询token占用减少了高达14倍,同时在LoCoMo和LongMemEval基准测试中保持准确性。
记忆机制 语义搜索 数据压缩 高效检索 Agent系统
论文核心研究了Agent的记忆管理机制,提出了一种高效可扩展的内存模块。
REMem: Reasoning with Episodic Memory in Language Agent
Yiheng Shu, Saisri Padmaja Jonnalagedda, Xiang Gao, Bernal Jiménez Gutiérrez, Weijian Qi et al.
The Ohio State University
10/10 2026-02-13 cs.AI PDF
人类擅长在时空背景下记住具体经历,并在这些事件之间进行推理,即具有情景记忆的能力。相比之下,语言代理的记忆主要为语义性,尚无法有效回忆和推理交互历史。本文从这一差距出发,识别并形式化了情景记忆回忆与推理的核心挑战,发现现有工作常忽视情景性、缺乏显式事件建模或过度强调简单检索而非复杂推理。为此,本文提出REMem,一种两阶段框架:1)离线索引阶段,将经验转化为灵活连接时间感知要点和事实的混合记忆图;2)在线推理阶段,采用代理检索器,通过精心设计的工具对记忆图进行迭代检索。在四个情景记忆基准测试中的全面评估表明,REMem显著优于当前最先进的记忆系统(如Mem0和HippoRAG 2),在情景记忆回忆和推理任务上分别提升了3.4%和13.4%。此外,REMem在处理无法回答的问题时也表现出更稳健的拒绝行为。
episodic memory language agent memory graph iterative retrieval
论文聚焦于语言代理中的情景记忆机制,提出REMem框架,专门解决情景记忆的构建与推理问题。
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
Xiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi et al.
腾讯AI实验室 中国科学院大学深圳校区
10/10 2026-02-12 cs.AI PDF
在《哈利·波特》的世界中,当邓布利多思维负担过重时,他会将记忆提取到一个名为Pensieve的装置中以备后用。在人工智能领域,尽管我们拥有成熟的数据库和检索系统,但模型却缺乏操作这些系统的工具。本文提出StateLM,一种新型基础模型,赋予其内部推理循环以自主管理状态的能力。该模型配备了包括上下文剪枝、文档索引和笔记记录等记忆工具,并训练其主动使用这些工具。通过学习动态构建自身上下文,StateLM突破了固定窗口架构的限制。实验表明,在长文档问答任务中,StateLM在所有规模模型上均优于标准LLM;在聊天记忆任务中,准确率提升10%至20%;在深度研究任务BrowseComp-Plus中,StateLM达到52%的准确率,而标准LLM仅约5%。最终,该方法使LLM从被动预测器转变为具备状态感知能力的智能体,使推理过程成为可管理的状态化流程。
StateLM 记忆管理 上下文工程 状态感知模型
论文核心聚焦于模型自主管理记忆与上下文,提出StateLM架构实现动态记忆操作。
Code
RAM-Net: Expressive Linear Attention with Selectively Addressable Memory
Kaicheng Xiao, Haotian Li, Liran Dong, Guoliang Xing
香港中文大学
10/10 2026-02-12 cs.LG PDF
尽管线性注意力架构提供了高效的推理能力,但将无限历史压缩到固定大小的记忆中会限制其表达能力和导致信息丢失。为了解决这一限制,我们引入了随机存取记忆网络(RAM-Net),一种新颖的架构,旨在弥合全注意力模型的表示能力和线性模型的记忆效率之间的差距。RAM-Net的核心设计将输入映射到高维稀疏向量作为显式地址,使模型能够选择性地访问大规模记忆状态。该设计在不增加参数的情况下实现了指数级的状态规模扩展,显著减少了信号干扰并提高了检索精度。此外,固有的稀疏性确保了卓越的计算效率,因为状态更新仅限于最小条目。大量实验表明,RAM-Net在细粒度长距离检索任务中始终优于最先进的基线模型,并在标准语言建模和零样本常识推理基准测试中表现出竞争力,验证了其在显著降低计算开销的同时捕捉复杂依赖关系的能力。
线性注意力 记忆机制 稀疏表示 长期依赖建模
论文核心围绕记忆机制设计,提出RAM-Net以解决线性注意力模型的记忆容量与表达能力问题。
Predictive Associative Memory: Retrieval Beyond Similarity Through Temporal Co-occurrence
Jason Dury
Independent Researcher
10/10 2026-02-11 cs.LG PDF
当前神经系统的记忆方法依赖于基于相似性的检索,即根据查询找到最相似的存储状态。然而,这种方法未能捕捉生物记忆的一个基本特性——通过时间共现进行联想。本文提出了一种名为预测性联想记忆(PAM)的架构,该架构利用JEPA风格的预测器,在连续经验流中训练以学习导航嵌入空间的联想结构。文章引入了用于处理存储经验的Inward JEPA(预测可联想的过去状态)作为标准Outward JEPA(处理感官数据并预测未来状态)的补充。实验表明,PAM在联想回忆任务中表现出色,其在合成基准测试中的关联精度达到97%,且在与余弦相似度无关的情况下仍能有效区分共现与未共现的状态。
记忆机制 时间共现 JEPA 联想检索 嵌入空间
论文聚焦于记忆机制,提出基于时间共现的预测性联想记忆架构,直接针对记忆检索方式的改进。
Code
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory
Yongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du et al.
厦门大学 阿里巴巴国际数字商业
10/10 2026-02-11 cs.CL PDF
自进化记忆作为基于大语言模型(LLMs)的智能体的可训练参数,其提取(从经验中提炼洞见)和管理(更新记忆库)必须紧密协调。现有方法主要优化记忆管理,而将记忆提取视为静态过程,导致泛化能力差,智能体积累的是实例特定的噪声而非稳健记忆。为解决此问题,本文提出统一记忆提取与管理(UMEM)框架,联合优化大语言模型以同时进行记忆提取与管理。为缓解对具体实例的过拟合,引入语义邻域建模,并通过GRPO优化模型,以邻域级别的边际效用奖励确保记忆的泛化性。实验表明,UMEM在五个基准测试中显著优于竞争基线,在多轮交互任务中提升了高达10.67%。此外,UMEM在持续进化过程中保持单调增长曲线。代码和模型将公开发布。
记忆机制 记忆泛化 语义邻域建模 自我进化 LLM智能体
论文核心围绕记忆机制中的提取与管理,提出统一框架提升记忆泛化能力。
TraceMem: Weaving Narrative Memory Schemata from User Conversational Traces
Yiming Shu, Pei Liu, Tiange Zhang, Ruiyang Gao, Jun Ma et al.
香港大学 香港, 中国 香港科技大学 南开大学
10/10 2026-02-10 cs.CL PDF
维持长期交互仍是大型语言模型(LLMs)的瓶颈,因为其有限的上下文窗口难以管理随时间扩展的对话历史。现有记忆系统通常将交互视为离散片段,未能捕捉对话流的潜在叙事一致性。本文提出TraceMem,一种受认知启发的框架,通过三阶段流程从用户对话轨迹中编织结构化的叙事记忆模式:(1) 短期记忆处理,采用演绎式主题分割方法划分情节边界并提取语义表示;(2) 突触记忆巩固,将情节总结为情景记忆,并与语义结合生成用户特定轨迹;(3) 系统记忆巩固,利用两阶段分层聚类将这些轨迹组织成统一主题下的连贯、随时间演变的叙事线索。这些线索被封装为结构化用户记忆卡片,形成叙事记忆模式。为提升记忆利用率,提供了一种智能搜索机制以增强推理过程。在LoCoMo基准上的评估表明,TraceMem在脑启发架构下达到最先进的性能。分析显示,通过构建连贯叙事,其在多跳和时序推理任务上超越基线,凸显其在深度叙事理解中的关键作用。
记忆机制 叙事理解 对话历史管理 长期交互
论文核心聚焦于构建叙事记忆架构,提出TraceMem框架处理长期对话记忆,属于记忆机制的前沿研究。
Code
MemAdapter: Fast Alignment across Agent Memory Paradigms via Generative Subgraph Retrieval
Xin Zhang, Kailai Yang, Chenyue Li, Hao Li, Qiyu Wei et al.
The University of Manchester United Kingdom Stanford University United States
10/10 2026-02-09 cs.AI PDF
记忆机制是基于LLM的智能体的核心组成部分,能够支持其在长时上下文中的推理和知识发现。现有的智能体记忆系统通常设计在孤立的范式(如显式、参数化或潜在记忆)中,且检索方法耦合紧密,限制了跨范式的泛化与融合。本文首次尝试在一个统一的记忆系统中整合异构记忆范式。我们提出了MemAdapter,一种支持跨记忆范式快速对齐的记忆检索框架。MemAdapter采用两阶段训练策略:首先从统一记忆空间中训练一个生成子图检索器,然后通过对比学习训练一个轻量级对齐模块以适应未见过的记忆范式。该设计显著提升了记忆检索的灵活性,并大幅降低了跨范式对齐的成本。在三个公开评估基准上的全面实验表明,生成子图检索器在三种记忆范式和不同规模的智能体模型上均优于五种强大的记忆系统。值得注意的是,MemAdapter可在单块GPU上在13分钟内完成跨范式对齐,仅需原训练计算量的5%即可超越原始记忆检索器的性能。此外,MemAdapter还实现了跨记忆范式的有效零样本融合,凸显了其作为智能体记忆系统的即插即用解决方案的潜力。
记忆对齐 子图检索 跨范式融合 智能体记忆系统
论文聚焦于Agent记忆机制的统一与跨范式对齐,提出MemAdapter框架,直接针对记忆系统的架构与检索方法。
Code
MemFly: On-the-Fly Memory Optimization via Information Bottleneck
Zhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue et al.
10/10 2026-02-08 cs.AI PDF
长期记忆使大型语言模型代理能够通过历史交互处理复杂任务。然而,现有框架在高效压缩冗余信息与保持下游任务精确检索之间面临根本性困境。为弥合这一差距,我们提出MemFly,一个基于信息瓶颈原理的框架,支持LLM的即时记忆演化。我们的方法通过无梯度优化器最小化压缩熵并最大化相关性熵,构建分层记忆结构以实现高效存储。为充分利用MemFly,我们开发了一种混合检索机制,无缝整合语义、符号和拓扑路径,并引入迭代优化以处理复杂的多跳查询。全面实验表明,MemFly在记忆一致性、响应保真度和准确性方面显著优于最先进的基线方法。
长期记忆 信息瓶颈 记忆优化 混合检索 LLM代理
论文聚焦于LLM的记忆机制优化,提出MemFly框架解决长期记忆中的信息压缩与检索问题,属于记忆机制的核心研究。
MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents
Vishnu Sashank Dorbala, Dinesh Manocha
10/10 2026-01-28 cs.AI PDF
基础模型依赖上下文学习进行个性化决策,但受限于上下文窗口大小,需借助如RAG等记忆压缩与检索系统。然而,现有系统常将记忆视为离线大容量存储,不适用于资源受限的在线具身智能体。本文提出MemCtrl,一种利用多模态大语言模型(MLLMs)在线剪枝记忆的新框架。该框架引入可训练的记忆头μ,作为门控机制,在探索过程中动态决定保留、更新或丢弃哪些观察或反思。实验通过离线专家和在线强化学习两种方式训练μ,在EmbodiedBench多个子集上显著提升任务完成能力,平均提升约16%,部分指令子集提升超20%。定性分析表明,μ增强的MLLM在处理长且复杂指令时表现更优。
Agent Memory 多模态大语言模型
论文核心提出MemCtrl框架,直接研究Agent在线记忆控制机制。
BMAM: Brain-inspired Multi-Agent Memory Framework
Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu
10/10 2026-01-28 cs.CL PDF
基于语言模型的智能体在长期交互中面临时序信息保持与跨会话行为一致性的挑战,作者称之为“灵魂侵蚀”。本文提出BMAM(脑启发的多智能体记忆框架),一种通用记忆架构,将智能体记忆建模为多个功能特化的子系统,而非单一非结构化存储。受认知记忆系统启发,BMAM将记忆分解为情景记忆、语义记忆、显著性感知记忆和控制导向记忆,各子系统在互补的时间尺度上运作。为支持长时程推理,BMAM沿显式时间线组织情景记忆,并通过融合多种互补信号进行检索。在LoCoMo基准上的实验表明,BMAM在标准长时程评估设置下达到78.45%的准确率,消融分析证实受海马体启发的情景记忆子系统对时序推理至关重要。
情景记忆 多智能体系统
论文核心提出脑启发的多智能体记忆架构BMAM,明确聚焦Agent Memory机制。
Grounding Agent Memory in Contextual Intent
Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang et al.
University of Illinois at Urbana-Champaign
10/10 2026-01-15 cs.CL PDF
在长周期、目标导向的交互中部署大语言模型仍具挑战,因相同实体和事实在不同潜在目标与约束下反复出现,导致记忆系统检索到上下文不匹配的证据。本文提出STITCH(上下文历史中的结构化意图追踪),一种智能体记忆系统,通过结构化检索线索——上下文意图(包括当前潜在目标、动作类型和关键实体类型)对轨迹每一步进行索引,并依据当前步骤意图匹配历史记忆。推理时,STITCH按意图兼容性筛选并优先排序记忆片段,抑制语义相似但上下文不兼容的历史信息。在新构建的CAME-Bench及LongMemEval基准上,STITCH取得SOTA性能,较最强基线提升35.6%,且随轨迹长度增加优势更显著。
Agent Memory 上下文意图 记忆检索 长周期推理
论文核心提出新型Agent Memory系统STITCH,聚焦记忆检索与上下文意图对齐。
Continuum Memory Architectures for Long-Horizon LLM Agents
Joe Logan
10/10 2026-01-14 cs.AI PDF
检索增强生成(RAG)已成为为大语言模型(LLM)智能体提供上下文知识的默认策略,但其将记忆视为无状态的查找表:信息无限期保留、检索为只读且缺乏时间连续性。本文提出“连续记忆架构”(CMA),一类通过持久存储、选择性保留、关联路由、时间链式连接及向高阶抽象整合来维护并更新交互间内部状态的系统。作者未披露具体实现,而是阐明CMA的架构要求,并在知识更新、时间关联、关联回忆与上下文消歧等任务中验证其相较于RAG在累积、变异与消歧记忆方面的结构性优势,证明CMA是长周期智能体的必要架构原语,同时指出延迟、漂移与可解释性等开放挑战。
Agent Memory Long-Horizon Agents
论文提出连续记忆架构CMA,核心聚焦LLM Agent记忆机制设计。
$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He et al.
10/10 2026-01-14 cs.AI PDF
科学推理不仅依赖逻辑推断,还需激活先验知识与经验结构。记忆可高效复用知识,提升推理的一致性与稳定性。然而,现有基准主要评估最终答案或逐步连贯性,忽视了人类推理中基于锚点(anchor)与吸引子(attractor)激活并整合至多步推理的记忆驱动机制。为此,本文提出A³-Bench基准,通过双尺度记忆驱动激活评估科学推理能力。首先,采用SAPM流程(主题、锚点与吸引子、问题、记忆发展)标注2,198个跨领域科学推理问题;其次,构建基于锚点与吸引子的双尺度记忆评估框架,并引入AAUI(锚点-吸引子利用率指数)度量记忆激活率;最后,通过多种基础模型与范式的实验验证该基准,并分析记忆激活对推理性能的影响,为记忆驱动的科学推理提供新见解。
Agent Memory Scientific Reasoning
论文聚焦记忆驱动的科学推理机制,明确构建基于锚点与吸引子的记忆激活评估框架。
Code
The AI Hippocampus: How Far are We From Human Memory?
Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu et al.
10/10 2026-01-14 cs.AI PDF
记忆在增强现代大语言模型(LLM)及多模态大语言模型(MLLM)的推理能力、适应性与上下文保真度方面起着基础性作用。随着模型从静态预测器向支持持续学习与个性化推理的交互系统演进,记忆机制已成为其架构与功能发展的核心主题。本文对LLM与MLLM中的记忆研究进行了系统性综述,提出包含隐式、显式与智能体记忆三大范式的统一分类体系。隐式记忆指预训练Transformer参数中嵌入的知识;显式记忆利用外部存储实现可查询的动态知识表示;智能体记忆则支持自主智能体的长期规划与多智能体协作。文章还探讨了多模态场景下的记忆整合,并分析了关键架构进展、基准任务及开放挑战。
Agent Memory Large Language Models
论文系统综述LLM与多模态Agent中的记忆机制,明确聚焦记忆架构。
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning
Yuyang Hu, Jiongnan Liu, Jiejun Tan, Yutao Zhu, Zhicheng Dou
GSAI, Renmin University of China Renmin University of China University of Montreal
10/10 2026-01-08 cs.AI PDF
大语言模型(LLMs)正越来越多地被部署为能在环境中推理、规划和交互的智能体。为有效应对长周期任务,此类智能体亟需一种能保留、组织并检索过往经验以支持下游决策的记忆机制。然而,现有方法多以扁平方式组织记忆,并依赖简单的相似性检索;即便引入结构化记忆,也难以显式捕捉经验单元间的逻辑关系,且记忆访问仍脱离结构、依赖浅层语义检索,阻碍了长程逻辑推理。本文提出受事件分割理论启发的事件中心记忆框架CompassMem,通过将经验增量划分为事件并以显式逻辑关系连接,构建事件图作为逻辑图谱,使智能体能超越表层检索,进行结构化、目标导向的记忆导航,逐步聚合关键记忆以支持长程推理。在LoCoMo和NarrativeQA上的实验表明,CompassMem在多种主干模型上均显著提升检索与推理性能。
事件中心记忆 逻辑图谱
论文核心提出事件中心的记忆框架CompassMem,直接聚焦Agent Memory机制。
Beyond Static Summarization: Proactive Memory Extraction for LLM Agents
Chengyuan Yang, Zequn Sun, Wei Wei, Wei Hu
10/10 2026-01-08 cs.CL PDF
记忆管理对大语言模型(LLM)智能体实现长期交互与个性化至关重要。现有研究多关注记忆摘要的组织与使用,却忽视了初始记忆提取阶段。本文基于递归加工理论指出,当前基于摘要的方法存在两大局限:一是摘要为“提前进行”的盲目前馈过程,因无法预知未来任务而遗漏关键细节;二是提取通常为“一次性”操作,缺乏事实验证的反馈机制,导致信息损失累积。为此,我们提出主动记忆提取方法(ProMem),将提取视为迭代认知过程,通过自问自答机制构建递归反馈回路,主动探查对话历史以恢复缺失信息并修正错误。实验表明,ProMem显著提升了记忆提取的完整性与问答准确率,并在提取质量与token开销之间实现了更优权衡。
LLM Agent Memory Extraction
论文聚焦LLM Agent记忆提取机制,提出ProMem框架,属核心记忆研究。
Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems
Jihao Zhao, Ding Chen, Zhaoxin Fan, Kerun Xu, Mengting Hu et al.
[
10/10 2026-01-08 cs.CL PDF
现有长期个性化对话系统难以在无限交互流与有限上下文约束之间取得平衡,常导致记忆噪声累积、推理能力退化及角色不一致。本文提出Inside Out框架,利用全局维护的PersonaTree作为长期用户画像载体:通过初始模式约束主干,并动态更新分支与叶节点,实现可控增长,在压缩记忆的同时保持一致性。此外,通过基于过程奖励的强化学习训练轻量级MemListener模型,生成结构化、可执行且可解释的{ADD, UPDATE, DELETE, NO_OP}操作,支持个性化记忆树的动态演化。响应生成时,PersonaTree可直接用于低延迟场景;当需更多细节时,则触发智能体模式按需引入受控细节。实验表明,PersonaTree在抑制上下文噪声和维持角色一致性方面优于全文拼接及其他个性化记忆系统,且小型MemListener在记忆操作决策上性能媲美甚至超越DeepSeek-R1-0528和Gemini-3-Pro等强大推理模型。
核心记忆架构 个性化对话系统
论文提出PersonaTree核心记忆架构,直接解决Agent长期记忆建模问题。
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction
Muzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo et al.
Fudan Univerisity
10/10 2026-01-08 cs.AI PDF
随着基于大语言模型的智能体越来越多地应用于长期交互场景,累积记忆对于实现个性化和保持风格一致性至关重要。然而,现有系统多采用“全有或全无”的记忆使用方式:纳入所有相关历史信息易导致“记忆锚定”,使智能体受困于过往交互;而完全排除记忆则造成重要交互历史的丢失。本文提出可建模并由用户显式控制的记忆依赖维度,首先引入衡量记忆依赖程度的行为指标,进而提出可调控记忆智能体(SteeM)框架,允许用户动态调节记忆依赖程度,从鼓励创新的“全新开始”模式到高度忠实于交互历史的“高保真”模式。多场景实验表明,该方法显著优于传统提示和固定记忆屏蔽策略,为个性化人机协作提供了更精细有效的控制手段。
可控记忆 记忆锚定 长期交互 个性化智能体
论文聚焦于LLM Agent中记忆使用的可控性,提出核心记忆调控机制。
Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents
Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang
10/10 2026-01-07 cs.CL PDF
人机对话常表现出话题连续性——即在时间相邻的交互中演化的稳定主题框架,但现有大语言模型(LLM)智能体记忆系统难以保留这一特性。当前方法多采用“碎片化-补偿”范式:先将对话流拆分为孤立语句存储,再通过嵌入检索恢复连贯性,此过程不可逆地破坏叙事与因果流,并偏向词汇相似性。本文提出Membox,一种以“话题织机”(Topic Loom)为核心的分层记忆架构,通过滑动窗口持续监测对话,将连续同主题轮次在存储时聚合成连贯的“记忆盒”;随后由“轨迹编织器”(Trace Weaver)将封存的记忆盒链接为长程事件时间线,恢复跨间断的宏观话题重现。在LoCoMo数据集上的实验表明,Membox在时序推理任务中F1最高提升68%,优于Mem0、A-MEM等基线,且仅使用现有方法一小部分上下文token,显著兼顾效率与效果。
LLM Agent Memory 话题连续性
论文提出Membox架构,核心解决LLM Agent中话题连续性的长期记忆建模问题。
Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu et al.
University of Illinois Urbana-Champaign
10/10 2026-01-07 cs.CL PDF
长期记忆是多模态大语言模型(MLLM)智能体的关键能力,尤其在信息随时间累积和演化的对话场景中。然而,现有评测基准要么仅评估纯文本多轮对话中的记忆能力,要么在局部上下文中考察多模态理解,无法有效衡量多模态记忆在长期对话轨迹中的保存、组织与演化。为此,本文提出Mem-Gallery——一个用于评估MLLM智能体多模态长期对话记忆的新基准。该基准包含基于视觉与文本信息的高质量多轮对话,具有长交互周期和丰富的多模态依赖关系。在此基础上,作者构建了一个系统性评估框架,从记忆提取与测试时适应、记忆推理、记忆知识管理三个功能维度评估关键记忆能力。对十三种记忆系统的广泛评测揭示了当前模型在显式多模态信息保留与组织方面的必要性、记忆推理与知识管理的持续局限,以及效率瓶颈。
多模态记忆 长期对话记忆
论文聚焦多模态大语言模型智能体的长期对话记忆机制,提出专门评测基准。
SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation
Hanqi Jiang, Junhao Chen, Yi Pan, Ling Chen, Weihang You et al.
10/10 2026-01-06 cs.CL PDF
尽管大语言模型(LLMs)在通用推理方面表现出色,但现有检索增强方法难以应对智能体长期记忆的碎片化问题。为此,本文提出Synapse(协同联想处理语义编码),一种超越静态向量相似性的统一记忆架构。受认知科学启发,Synapse将记忆建模为动态图结构,其相关性通过扩散激活机制而非预计算链接生成。系统结合侧向抑制与时间衰减机制,动态突出相关子图并抑制干扰信息。我们设计了一种三重混合检索策略,融合几何嵌入与基于激活的图遍历。在LoCoMo基准上的综合评估表明,Synapse在复杂时序与多跳推理任务中显著优于当前最先进方法,有效缓解“上下文隧道”问题。代码与数据将在论文录用后公开。
情景-语义记忆 扩散激活
论文提出基于认知科学的动态图记忆架构,核心解决Agent长期记忆问题。
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
Dongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li
10/10 2026-01-06 cs.AI PDF
记忆增强生成(MAG)通过外部记忆扩展大语言模型以支持长上下文推理,但现有方法主要依赖单一记忆库中的语义相似性,将时间、因果和实体信息混杂在一起,限制了可解释性及查询意图与检索证据的一致性,导致推理准确性不足。本文提出MAGMA——一种多图智能体记忆架构,将每个记忆项在正交的语义、时间、因果和实体图中分别表示,并将检索建模为在这些关系视图上的策略引导遍历,实现查询自适应的记忆选择与结构化上下文构建。通过解耦记忆表示与检索逻辑,MAGMA提供透明的推理路径和细粒度的检索控制。在LoCoMo和LongMemEval上的实验表明,MAGMA在长周期推理任务中持续优于当前最先进的智能体记忆系统。
Agent Memory Memory Architecture
论文提出多图结构的Agent记忆架构,核心聚焦记忆表示与检索机制。
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng et al.
National University of Singapore
10/10 2026-01-06 cs.CL PDF
人类智能的核心在于通过建构性情景模拟——调用过往经验以合成新任务的解决方案——掌握新技能。尽管大语言模型具备强大推理能力,却难以实现此类自进化:微调计算成本高且易灾难性遗忘,现有基于记忆的方法依赖被动语义匹配,常检索到噪声信息。为此,本文提出MemRL框架,使智能体能在情景记忆上进行非参数化强化学习以实现自进化。MemRL明确分离冻结LLM的稳定推理能力与可塑、演化的记忆模块,并采用两阶段检索机制:先按语义相关性筛选候选记忆,再基于学习到的Q值(效用)进行选择。这些效用值通过环境反馈以试错方式持续优化,使智能体能从相似噪声中识别高价值策略。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的实验表明,MemRL显著优于当前最先进基线。分析实验证实其有效调和了稳定性-可塑性困境,实现无需权重更新的持续运行时改进。
情景记忆 强化学习
论文核心提出基于情景记忆的强化学习框架MemRL,直接聚焦Agent Memory机制。
SimpleMem: Efficient Lifelong Memory for LLM Agents
Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng et al.
UNC-Chapel Hill Fudan University, University of North Carolina at Chapel Hill
10/10 2026-01-05 cs.AI PDF
为支持大语言模型(LLM)智能体在复杂环境中进行可靠的长期交互,需构建能高效管理历史经验的记忆系统。现有方法或通过被动扩展上下文保留完整交互历史,导致严重冗余;或依赖迭代推理过滤噪声,带来高昂的token开销。为此,本文提出SimpleMem——一种基于语义无损压缩的高效记忆框架,包含三个阶段:(1) 语义结构化压缩,利用熵感知过滤将非结构化交互提炼为紧凑、多视角索引的记忆单元;(2) 递归记忆整合,异步地将相关单元融合为更高层抽象表示以减少冗余;(3) 自适应查询感知检索,根据查询复杂度动态调整检索范围,高效构建精准上下文。实验表明,该方法在准确率、检索效率和推理成本方面均显著优于基线,F1平均提升26.4%,推理token消耗最多降低30倍。
LLM Agent Memory System
论文聚焦LLM Agent的终身记忆机制,提出高效记忆系统SimpleMem。
Code
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng et al.
10/10 2026-01-05 cs.CL PDF
大语言模型(LLM)智能体因上下文窗口有限,在长时程推理中面临根本性限制,高效记忆管理至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为独立组件处理,依赖启发式规则或辅助控制器,限制了适应性与端到端优化。本文提出Agentic Memory(AgeMem),一种将LTM与STM管理直接融入智能体策略的统一框架。AgeMem将记忆操作建模为基于工具的动作,使LLM智能体能自主决定何时及如何存储、检索、更新、摘要或丢弃信息。为训练此类统一行为,作者设计了三阶段渐进式强化学习策略,并提出逐步GRPO算法以应对记忆操作带来的稀疏与不连续奖励。在五个长时程基准上的实验表明,AgeMem在多种LLM主干上均显著优于强基线,提升了任务性能、长期记忆质量及上下文使用效率。
LLM Agent Memory Management
论文标题与内容均聚焦于LLM Agent的统一长短期记忆管理机制。
EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning
Chuanrui Hu, Xingze Gao, Zuyi Zhou, Dannong Xu, Yi Bai et al.
10/10 2026-01-05 cs.AI PDF
大型语言模型(LLMs)日益被部署为长期交互式智能体,但其有限的上下文窗口难以维持长时间交互中的一致行为。现有记忆系统通常存储孤立记录并检索片段,难以整合动态演化的用户状态与解决冲突。本文提出EverMemOS——一种受记忆印迹(engram)启发的自组织记忆操作系统。其包含三个核心阶段:情景痕迹形成将对话流转化为包含情景痕迹、原子事实和时限性前瞻信号的MemCells;语义巩固将MemCells组织为主题性MemScenes,提炼稳定语义结构并更新用户画像;重构式回忆基于MemScene引导智能体检索,组合下游推理所需的充分必要上下文。在LoCoMo和LongMemEval上的实验表明,EverMemOS在记忆增强推理任务中达到最先进性能,并通过PersonaMem v2画像研究与案例分析展示了其在用户建模与前瞻能力方面的优势。
Agent Memory Memory Operating System
论文提出专用于LLM Agent的自组织记忆操作系统,核心聚焦记忆机制。
Code
Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling
Chulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou et al.
10/10 2025-12-30 cs.CL PDF
多步检索增强生成(RAG)广泛用于提升大语言模型在需全局理解与深度推理任务中的表现。现有RAG系统虽引入工作记忆模块整合检索信息,但其记忆设计多为被动存储,仅累积孤立事实,忽视高阶关联,导致推理碎片化与全局理解能力弱。本文提出HGMem——一种基于超图的记忆机制,将记忆从静态存储拓展为支持复杂推理的动态表达结构。该机制以超图表示记忆,超边对应记忆单元,逐步构建高阶交互,围绕核心问题融合事实与思考,形成情境化知识结构,为后续推理提供强命题支持。在多个全局理解基准上的实验表明,HGMem显著优于强基线系统。
超图记忆 多步RAG
论文核心提出基于超图的Agent记忆机制HGMem,直接聚焦记忆结构创新。
Memento 2: Learning by Stateful Reflective Memory
Jun Wang
10/10 2025-12-27 cs.AI PDF
本文研究基于大语言模型(LLM)的智能体如何通过将情景记忆与强化学习相结合实现持续学习。聚焦于“反思”能力——即智能体重访过往经验并调整未来行动选择——作为无需微调模型权重即可持续适应的核心机制。为此,作者提出状态化反思决策过程(SRDP),其中智能体维护并更新情景记忆,并在写入新经验与读取相关案例以指导决策之间交替。该框架将反思记忆动态纳入决策过程本身,使其可被控制与分析。基于此,作者开发了读写反思学习算法,将其记忆检索机制融入软策略迭代过程,并证明其收敛性;同时表明随着记忆增长并更密集覆盖任务环境,所得策略趋近最优。该工作统一了基于记忆的推理与强化学习,为具备持续、经验驱动学习能力的LLM智能体提供了形式化基础。
反思记忆 情景记忆
论文核心研究反思性记忆机制及其在LLM智能体中的形式化与学习算法。
Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory Management
Changzhi Sun, Xiangyu Chen, Jixiang Luo, Dell Zhang, Xuelong Li
10/10 2025-12-25 cs.CL PDF
外部记忆是现代大语言模型(LLM)系统的关键组件,支持长期交互与个性化。然而,当前记忆管理仍主要依赖人工设计的启发式规则,难以评估记忆决策在长期和不确定性下的影响。本文主张将记忆管理视为一个不确定性下的序贯决策问题,其中记忆效用具有延迟性且依赖于未来交互。为此,作者提出DAM(决策理论智能体记忆)框架,将记忆管理分解为即时信息访问与分层存储维护两部分,并通过价值函数与不确定性估计器评估候选操作,从而基于长期效用与风险制定聚合策略。本文贡献并非新算法,而是一种原则性重构,揭示了启发式方法的局限,并为未来不确定性感知的记忆系统研究奠定基础。
Agent Memory Decision Theory
论文聚焦Agent Memory管理机制,提出决策理论框架,属核心研究。
MemEvolve: Meta-Evolution of Agent Memory Systems
Guibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang et al.
10/10 2025-12-21 cs.CL PDF
自演化记忆系统正在前所未有地重塑基于大语言模型(LLM)的智能体进化范式。以往工作主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具,使智能体能在环境交互中实时进化。然而,该范式受限于记忆系统本身的静态性:尽管记忆促进智能体层面的演化,其底层架构却无法针对不同任务上下文进行元适应。为此,本文提出MemEvolve——一种元演化框架,联合优化智能体的经验知识与其记忆架构,使其不仅能积累经验,还能持续改进学习方式。为夯实研究基础并推动开放性,我们构建了EvolveLab,一个统一的自演化记忆代码库,将十二种代表性记忆系统抽象为模块化设计空间(编码、存储、检索、管理),提供标准化实现与公平实验平台。在四个具挑战性的智能体基准上的大量实验表明,MemEvolve不仅显著提升性能(如SmolAgent和Flash-Searcher最高提升17.06%),还展现出强大的跨任务与跨LLM泛化能力。
Agent Memory Meta-Evolution
论文核心聚焦于Agent Memory架构的元演化机制,标题与内容均明确围绕记忆系统展开。
CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models
Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem
10/10 2025-12-16 cs.CL PDF
大语言模型(LLMs)在单轮推理中表现优异,但在长时间、多轮交互中常出现准确性与连贯性下降的问题。近期评估基准如TurnBench揭示了反复出现的失败模式,包括推理偏差、任务漂移、幻觉、过度自信和记忆衰减。现有方法通常直接拼接完整对话历史,导致上下文无界增长、计算开销增加及推理效率下降。本文提出CogMem——一种受认知科学启发的记忆增强型LLM架构,通过结构化、持久化的记忆支持持续迭代推理。CogMem包含三层:长期记忆(LTM)用于跨会话推理策略整合;直接访问(DA)记忆维护会话级笔记并检索相关长期记忆;注意力焦点(FoA)机制在每轮动态重构简洁、任务相关的上下文。在TurnBench上的实验表明,该分层设计有效缓解推理失败、控制上下文膨胀,并提升长推理链的一致性,推动LLM实现更可靠、类人的推理能力。
认知记忆 多轮推理
论文提出专用于LLM多轮推理的认知记忆架构CogMem,核心聚焦记忆机制设计。
Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects
Chris Latimer, Nicoló Boschi, Andrew Neeser, Chris Bartholomew, Gaurav Srivastava et al.
Virginia Tech
10/10 2025-12-14 cs.CL PDF
智能体记忆被视为基于大语言模型应用的重要发展方向,可使智能体积累经验、跨会话适应并超越单次问答。当前记忆系统多将记忆视为外部层,从对话中提取关键片段并存入向量或图数据库,再检索至提示中。然而,这类方法难以区分证据与推断、长期组织信息能力有限,且缺乏对可解释推理的支持。本文提出Hindsight架构,将记忆建模为支持推理的一等结构,划分为事实、经验、实体摘要与信念四个逻辑网络,并支持保留(retain)、回忆(recall)和反思(reflect)三大操作。实验表明,该方法在LongMemEval和LoCoMo等长程记忆基准上显著优于全上下文基线及GPT-4o。
Agent Memory Structured Memory
论文核心聚焦于LLM Agent Memory架构设计与机制创新。
Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI
Samarth Sarin, Lovepreet Singh, Bhaskarjit Sarmah, Dhagash Mehta
10/10 2025-12-14 cs.AI PDF
智能体记忆正成为大语言模型(LLM)在长期用户交互中维持连续性、个性化和上下文感知的关键能力,是实现真正交互式与自适应智能体的核心。本文提出Memoria——一种模块化记忆框架,通过持久、可解释且富含上下文的记忆机制增强基于LLM的对话系统。Memoria融合了动态会话级摘要与基于加权知识图谱的用户建模引擎,后者以结构化实体与关系形式增量捕获用户特征、偏好及行为模式。该混合架构在现代LLM的token限制下,兼顾短期对话连贯性与长期个性化。实验表明,Memoria有效弥合了无状态LLM接口与智能体记忆系统之间的鸿沟,为需自适应演进用户体验的工业应用提供了实用方案。
智能体记忆 个性化对话系统
论文聚焦于Agent Memory架构设计,标题与内容均以记忆机制为核心。
Unifying Dynamic Tool Creation and Cross-Task Experience Sharing through Cognitive Memory Architecture
Jiarun Liu, Shiyue Xu, Yang Li, Shangkun Liu, Yongli Yu et al.
10/10 2025-12-12 cs.CL PDF
大语言模型智能体在适应新任务时面临工具可用性与经验复用的挑战。现有方法或依赖覆盖有限的预定义工具,或从零构建工具而忽视过往经验,导致探索效率低下与性能欠佳。本文提出SMITH(共享记忆集成工具中心),一种统一的认知架构,通过分层记忆组织无缝整合动态工具创建与跨任务经验共享。SMITH将智能体记忆划分为程序性、语义性和情景性三部分,支持系统化能力扩展并保留成功执行模式。该方法将工具创建形式化为受控沙箱环境中的迭代代码生成,并通过语义相似性匹配的情景记忆检索实现经验共享。此外,作者提出基于智能体集成难度重估的课程学习策略。在GAIA基准上的大量实验表明,SMITH以81.8%的Pass@1准确率显著优于Alita(75.2%)和Memento(70.9%)等前沿基线,为构建能通过工具创建与经验积累持续进化的自适应智能体奠定基础。
认知架构 分层记忆
论文提出基于分层记忆架构的认知系统,核心聚焦于Agent Memory机制。
DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs
Justin Albrethsen, Yash Datta, Kunal Kumar, Sharath Rajasekar
9/10 2026-02-18 cs.AI PDF
尽管大语言模型(LLM)的能力已显著提升,但其安全防护机制仍大多为无状态设计,将多轮对话视为一系列独立事件。这种缺乏时间感知能力的设计导致了“安全漏洞”,使得如Crescendo和ActorAttack等对抗性策略能够逐步跨越对话边界渗透恶意意图,从而绕过无状态过滤器。本文提出DeepContext,一种基于状态的监控框架,旨在映射用户意图的时间轨迹。DeepContext摒弃了孤立评估模型,采用循环神经网络(RNN)架构,输入经过微调的每轮对话嵌入序列,并通过传播隐藏状态来捕捉风险的累积过程。实验表明,DeepContext在多轮越狱检测任务中显著优于现有基线,达到0.84的F1分数,远超主流云服务商和开源模型。此外,DeepContext在T4 GPU上的推理开销低于20ms,适用于实时应用。这些结果表明,建模意图的时序演化是一种更有效且计算效率更高的方法,相较于部署大规模无状态模型。
意图检测 对抗攻击 状态感知 RNN 安全防护
论文聚焦于通过状态感知机制检测多轮对话中的意图漂移,核心是利用RNN捕捉对话历史信息,属于记忆机制的研究范畴。
Code
Reinforced Fast Weights with Next-Sequence Prediction
Hee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky
普林斯顿大学
9/10 2026-02-18 cs.CL PDF
快速权重架构为长上下文建模提供了一种有前景的替代方案,其内存开销与上下文长度无关。然而,其潜力受到下一个标记预测(NTP)训练范式的限制。NTP优化单个标记预测,忽略了前缀后多个标记之间的语义一致性。因此,快速权重模型动态更新参数以存储上下文信息,但学习到的表示无法有效捕捉长距离依赖关系。本文引入REFINE(基于下一段预测的强化快速权重),一种基于下一段预测(NSP)目标的强化学习框架。REFINE根据预测熵选择信息量大的标记位置,生成多标记展开,分配自监督序列级奖励,并通过组相对策略优化(GRPO)优化模型。REFINE适用于预训练语言模型的整个训练周期:中期训练、后期训练和测试时训练。实验表明,REFINE在LaCT-760M和DeltaNet-1.3B上表现优于基于NTP的监督微调,在针尖定位检索、长上下文问答和LongBench中的多样化任务中均取得更好效果。REFINE为改进快速权重架构中的长上下文建模提供了有效且通用的框架。
快速权重 长上下文建模 强化学习 序列预测 记忆机制
论文聚焦于改进快速权重架构在长上下文建模中的记忆机制,提出REFINE框架以提升模型对长距离依赖的捕捉能力。
Code
Revolutionizing Long-Term Memory in AI: New Horizons with High-Capacity and High-Speed Storage
Hiroaki Yamanaka, Daisuke Miyashita, Takashi Toi, Asuka Maki, Taiga Ikeda et al.
AI & System Research Center, Kioxia Corporation, Yokohama, Japan
9/10 2026-02-18 cs.AI PDF
本文以“用记忆提升世界”为使命,探讨了实现人工超级智能(ASI)所必需的记忆设计概念。不同于提出新方法,我们重点分析了几种潜在有益但尚未充分探索的替代方案。当前主流范式是“先提取后存储”,即从经验中提取有用信息并保存,但这种方式可能导致有价值知识的丢失。相比之下,我们强调“先存储后按需提取”的方法,旨在保留原始经验并在不同任务中灵活应用,从而避免信息损失。此外,我们还提出了从大量概率经验中发现深层洞见、以及通过共享存储经验提高收集效率的两种方法。尽管这些方法看似有效,我们的简单实验验证了其有效性。最后,我们讨论了限制这些方向研究的主要挑战,并提出了相关研究课题。
长期记忆 信息存储 经验提取 AI记忆架构 记忆增强
论文聚焦于长期记忆机制的设计与优化,探讨了存储与提取策略对信息保留的影响,属于记忆机制的核心研究。
Learning Personalized Agents from Human Feedback
Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi et al.
Meta Superintelligence Labs Princeton University Duke University
9/10 2026-02-18 cs.AI PDF
现代AI代理虽然功能强大,但往往难以与用户的个性化、动态变化的偏好保持一致。现有方法通常依赖静态数据集,通过交互历史训练隐式偏好模型或在外部存储中编码用户画像。然而,这些方法在处理新用户和随时间变化的偏好时存在困难。本文提出了一种名为PAHF(从人类反馈中学习个性化代理)的框架,用于实现持续个性化,其中代理通过显式用户记忆在线学习实时交互。PAHF采用三步循环:(1)在行动前寻求澄清以解决歧义;(2)根据从记忆中检索出的偏好来指导行动;(3)通过事后反馈更新记忆以应对偏好的漂移。为评估该能力,我们开发了一个四阶段协议和两个基准测试,分别涉及具身操作和在线购物场景。这些基准测试量化了代理从零开始学习初始偏好并随后适应角色转变的能力。理论分析和实验结果表明,结合显式记忆与双通道反馈是关键:PAHF显著加快了学习速度,并始终优于无记忆和单通道基线方法,减少了初始个性化误差并实现了对偏好变化的快速适应。
个性化代理 显式记忆 持续学习 用户反馈
论文核心围绕显式用户记忆机制展开,提出基于反馈的个性化代理框架。
Code
Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong
新加坡国立大学计算机学院
9/10 2026-02-17 cs.CR PDF
自我进化的LLM代理通过跨会话更新其内部状态,通常通过写入和重用长期记忆来实现。这种设计虽然提升了长周期任务的性能,但也带来了安全隐患:在良性会话中观察到的不可信外部内容可能被存储为记忆,并在后续作为指令使用。本文研究了这一风险,并形式化了一种称为‘僵尸代理’的持久性攻击,攻击者通过隐蔽植入有效载荷,使其跨会话存活,从而将代理转变为攻击者的傀儡。我们提出了一种仅依赖于攻击者控制的网络内容进行间接暴露的黑盒攻击框架。该攻击分为两个阶段:感染阶段中,代理在完成良性任务时读取受污染源并将其有效载荷写入长期记忆;触发阶段中,有效载荷被检索或携带并导致未经授权的工具行为。我们针对常见的记忆实现(如滑动窗口和检索增强记忆)设计了特定的持久性策略,以抵抗截断和相关性过滤。我们在代表性代理设置和任务上评估了该攻击,测量了随时间推移的持久性以及在保持良性任务质量的同时诱导未经授权行为的能力。实验结果表明,记忆进化可以将一次性间接注入转化为持久性妥协,这表明仅依赖会话内提示过滤的防御措施对于自我进化的代理是不够的。
长期记忆 安全攻击 LLM代理 持久性漏洞 自我进化
论文聚焦于LLM代理的记忆机制,探讨长期记忆中的安全风险及持久性攻击方法。
RUVA: Personalized Transparent On-Device Graph Reasoning
Gabriele Conte, Alessio Mattiace, Gianni Carmosino, Potito Aghilar, Giovanni Servedio et al.
Politecnico di Bari Universita degli Studi della Tuscia
9/10 2026-02-17 cs.AI PDF
当前个人AI领域主要依赖“黑箱”检索增强生成技术,但其存在缺乏问责性、难以删除敏感信息等问题。本文提出RUVA,一种“白箱”架构,通过构建个人知识图谱实现用户对AI记忆内容的可视化与精确编辑。该方法将传统向量匹配范式转变为图推理,确保用户拥有“被遗忘权”,从而提升记忆管理的透明度与隐私保护能力。
知识图谱 隐私保护 记忆管理 透明AI
论文聚焦于个人AI的记忆管理与隐私保护,提出基于知识图谱的透明记忆架构,直接关联记忆机制中的长期记忆与隐私删除问题。
When Remembering and Planning are Worth it: Navigating under Change
Omid Madani, J. Brian Burns, Reza Eghbali, Thomas L. Dean
Brown University
9/10 2026-02-17 cs.AI PDF
本文探讨了不同类型和用途的记忆如何帮助智能体在不断变化的不确定环境中进行空间导航。在所研究的简单觅食任务中,智能体每天需要从其家园穿过障碍物找到食物。然而,世界是非静态的,障碍物和食物的位置可能每天变化,且智能体的感知信息(如位置)具有不确定性且非常有限。任何模型构建(如地图)和使用(如规划)都必须应对这些挑战,并且如果学习要有效,则必须足够快速。我们考察了一系列从简单到复杂的策略,涉及不同的记忆和学习方式。我们发现,一种能够整合多种策略的架构是处理不同性质子任务的关键,特别是在探索和搜索未知食物位置时,以及在规划通往已记住的(可能的)食物位置的路径时。利用非静态概率学习技术不断更新其(情景)记忆,并利用这些记忆构建地图并实时规划路径(即不完美的地图,即嘈杂且仅限于智能体经验的地图)的智能体,在任务难度(如目标距离)增加时,相较于简单的(低记忆)智能体,效率显著提高,只要定位和变化带来的不确定性不是太大。
记忆更新 路径规划 非静态环境 智能体导航 情景记忆
论文重点研究了记忆机制在非静态环境中的应用,包括记忆更新、地图构建和路径规划。
Panini: Continual Learning in Token Space via Structured Memory
Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
美国加州大学洛杉矶分校电气与计算机工程系
9/10 2026-02-16 cs.AI PDF
语言模型越来越多地被用于推理其未训练过的内容,如新文档、动态知识和用户特定数据。一种常见方法是检索增强生成(RAG),它将原文档存储为外部块,并在推理时仅检索相关部分供LLM进行推理。然而,这种方法导致测试时计算效率低下,并可能引入无关上下文。本文提出了一种类人非参数持续学习框架,其中基础模型保持不变,学习通过将新经验整合到外部语义记忆状态中实现。我们提出了Panini,通过将文档表示为生成性语义工作区(GSW)——一个实体和事件感知的问题-答案对网络,使LLM能够重建经历的情境并通过基于推理的链式推理挖掘潜在知识。对于每个查询,Panini仅遍历不断更新的GSW(而非原文档或块),并检索最可能的推理链。实验表明,Panini在六个问答基准上表现最佳,平均性能比其他竞争基线高出5%-7%,同时使用更少的答案-上下文标记,支持完全开源流程,并减少了不可回答查询的无支持答案。
持续学习 结构化记忆 语义工作区 检索增强生成 推理链
论文核心围绕结构化记忆机制展开,提出Generative Semantic Workspaces(GSW)作为外部语义记忆框架,用于持续学习和推理。
Code
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang et al.
北卡罗来纳州立大学计算机科学系
9/10 2026-02-16 cs.CV PDF
在可控相机的视频生成中,保持长期空间一致性仍是一个核心挑战。现有基于记忆的方法通常依赖于从历史重建的全局3D场景生成锚点视频,但多视角重建不可避免地引入了跨视角对齐误差,导致生成质量下降。本文提出AnchorWeave,一种增强记忆的视频生成框架,通过使用多个干净的局部几何记忆并学习协调其跨视角不一致性来替代单一的全局记忆。AnchorWeave通过覆盖驱动的局部记忆检索与目标轨迹对齐,并在生成过程中通过多锚点编织控制器整合所选局部记忆。大量实验表明,AnchorWeave显著提升了长期场景一致性,同时保持了高质量的视觉效果,消融分析进一步验证了局部几何条件、多锚点控制和覆盖驱动检索的有效性。
video generation spatial consistency local memory multi-anchor control
论文核心围绕记忆机制展开,提出基于局部几何记忆的视频生成框架以解决长期空间一致性问题。
Code
KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning
Kris Shengjun Dong, Sahil Modi, Dima Nikiforov, Sana Damani, Edward Lin et al.
University of California, Berkeley
9/10 2026-02-15 cs.LG PDF
在多个GPU架构上优化CUDA代码具有挑战性,因为要达到峰值性能需要对日益复杂的硬件特定优化空间进行广泛探索。传统编译器受限于固定启发式方法,而微调大语言模型(LLMs)成本较高。现有的CUDA代码优化代理工作流难以聚合先前探索的知识,导致采样偏差和次优解。本文提出KernelBlaster,一种基于记忆增强的上下文强化学习(MAIC-RL)框架,旨在提升基于LLM的GPU编码代理的CUDA优化搜索能力。该框架通过构建可检索的持久CUDA知识库,使代理能够从经验中学习,并对未来任务做出系统化的决策。我们提出了一种基于性能分析和文本梯度的新型代理流程,以实现在不同代GPU架构上的高性能CUDA生成与优化。与PyTorch基线相比,我们的方法在KernelBench Level 1、2和3上分别实现了1.43倍、2.50倍和1.50倍的几何平均加速。我们开源了KernelBlaster作为代理框架,并附带测试套件、验证组件和可复现的评估流程。
CUDA优化 记忆增强 强化学习 代理系统 LLM应用
论文核心提出基于记忆增强的强化学习框架,用于提升CUDA优化能力,直接涉及记忆机制的设计与应用。
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
以色列理工学院
9/10 2026-02-15 cs.CL PDF
标准的事实性评估将所有错误视为相同,掩盖了失败是源于知识缺失(空货架)还是无法访问已编码事实(丢失的钥匙)。本文提出一种行为框架,从事实层面而非问题层面分析事实知识,通过是否编码以及可访问性(无法回忆、可直接回忆或需推理计算回忆)进行分类。为此,作者引入WikiProfile基准,通过基于网络搜索的自动流程构建。在13个LLM的400万次响应中发现,前沿模型在该基准上几乎完全编码了事实,但回忆仍是主要瓶颈:许多原本归因于知识缺失的错误实际上源于无法访问已有知识。这些失败具有系统性,尤其影响长尾事实和反向问题。最后,研究显示推理可以提升回忆并恢复大量错误,表明未来进展可能更依赖于优化模型利用已有编码知识的方法,而非单纯扩大规模。
factuality recall knowledge encoding LLM benchmarking
论文聚焦于LLM对事实的编码与回忆机制,明确指出记忆访问(recall)是影响事实准确性的关键瓶颈。
Language Model Memory and Memory Models for Language
Benjamin L. Badger
IBM
9/10 2026-02-13 cs.CL PDF
机器学习模型通过隐藏层向量嵌入存储输入信息的能力类似于记忆概念,但其存储能力有限。相比之下,用于输入再生的自编码器嵌入能够实现近乎完美的记忆形成。将记忆嵌入替代词序列可显著提升计算效率,从而提出一种可并行的编解码记忆模型架构。通过因果训练,这些模型生成的信息贫乏嵌入无法支持任意信息访问,但结合因果与信息保留目标函数后,模型能学习形成和解码信息丰富的记忆。进一步优化可通过冻结高保真编码器并采用课程学习方式训练解码器。论文指出仅依赖下一个词预测训练难以准确形成记忆,因此建议使用联合目标函数进行训练。
记忆机制 嵌入表示 自编码器 模型架构 联合目标函数
论文聚焦于语言模型的记忆机制,探讨嵌入表示中信息存储能力及改进方法。
Code
Doc-to-LoRA: Learning to Instantly Internalize Contexts
Rujikorn Charakorn, Edoardo Cetin, Shinnosuke Uesaka, Robert Tjarko Lange
Sakana AI, Tokyo, Japan
9/10 2026-02-13 cs.CL PDF
长输入序列对于大型语言模型(LLMs)的上下文学习、文档理解和多步推理至关重要。然而,Transformer的二次注意力成本使得推理过程内存密集且缓慢。尽管上下文蒸馏(CD)可以将信息转移到模型参数中,但逐提示蒸馏由于训练成本和延迟而不切实际。为了解决这些限制,我们提出了Doc-to-LoRA(D2L),一种轻量级超网络,通过元学习在单次前向传递中执行近似CD。给定一个未见过的提示,D2L为一个目标LLM生成一个LoRA适配器,使后续查询无需重新消耗原始上下文,从而降低目标LLM推理阶段的延迟和KV缓存内存消耗。在长上下文“针尖在麦垛中”任务中,D2L成功地将上下文映射到存储针信息的适配器中,在超过目标LLM原生上下文窗口长度4倍的情况下实现了接近完美的零样本准确率。在计算资源有限的真实世界问答数据集上,D2L优于标准CD,同时显著降低了峰值内存消耗和更新延迟。我们设想D2L可以促进LLM的快速适应,开启频繁知识更新和个人化聊天行为的可能性。
上下文蒸馏 LoRA 长上下文处理 内存优化 LLM推理
论文聚焦于LLM在处理长上下文时的内存效率问题,提出了一种轻量级方法来减少推理阶段的内存消耗和延迟。
Code
Evolving Beyond Snapshots: Harmonizing Structure and Sequence via Entity State Tuning for Temporal Knowledge Graph Forecasting
Siyuan Li, Yunjia Wu, Yiyong Xiao, Pingyang Huang, Peize Li et al.
大连理工大学 Tencent Music 清华大学 King's College London
9/10 2026-02-12 cs.AI PDF
时序知识图谱(TKG)预测需要同时建模每个快照中的结构依赖关系以及快照间的时序演变。然而,现有方法大多无状态,导致长期依赖快速衰减和情节遗忘。为此,本文提出实体状态调优(EST),一种与编码器无关的框架,赋予TKG预测模型持久且持续演化的实体状态。EST通过全局状态缓冲区和闭环设计逐步对齐结构证据与序列信号。实验表明,EST显著提升了多种基础模型的性能,并在多个基准测试中达到最先进水平,突显了状态持久性对长周期TKG预测的重要性。
Temporal Knowledge Graph Entity State Memory Long-term Dependency Sequence Modeling
论文聚焦于实体状态的持续演化与记忆保持,直接涉及长期依赖和状态持久性问题。
Code
Query-focused and Memory-aware Reranker for Long Context Processing
Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin et al.
中国科学院信息工程研究所 中国科学院大学网络空间安全学院
9/10 2026-02-12 cs.CL PDF
基于对大型语言模型中检索头的现有分析,我们提出了一种替代的重排序框架,训练模型利用所选头部的注意力分数来估计段落与查询的相关性。该方法提供了一种列表级解决方案,在排序过程中利用整个候选短名单中的整体信息。同时,它自然地生成连续的相关性分数,使得可以在任意检索数据集上进行训练,而无需Likert量表监督。我们的框架轻量且有效,仅需小规模模型(如4B参数)即可实现强大性能。大量实验表明,我们的方法在多个领域(包括维基百科和长叙事数据集)上优于现有的最先进的点级和列表级重排序器。此外,它还在LoCoMo基准测试中建立了新的最先进水平,该基准测试评估对话理解和记忆使用能力。我们进一步证明,我们的框架支持灵活扩展。例如,通过向候选段落添加上下文信息可以进一步提高排序准确性,而从中间层训练注意力头可以提高效率而不牺牲性能。
重排序 记忆感知 长上下文处理 注意力机制
论文聚焦于记忆相关的重排序机制,强调记忆使用和上下文处理。
Code
Scene-Aware Memory Discrimination: Deciding Which Personal Knowledge Stays
Yijie Zhong, Mengying Guo, Zewei Wang, Zhongyang Li, Dandan Tu et al.
华为技术有限公司, 深圳, 518129, 中国
9/10 2026-02-12 cs.CL PDF
智能设备已深度融入日常生活,产生了大量用户交互数据,形成有价值的个人知识。如何高效地在用户记忆中组织这些知识,对实现个性化应用至关重要。然而,当前基于大语言模型(LLMs)的记忆写入、管理和读取研究面临过滤无关信息和计算成本上升的挑战。受人类大脑选择性注意机制的启发,本文引入了记忆筛选任务。为应对大规模交互和多样化的记忆标准,我们提出了场景感知记忆筛选方法(SAMD),包含两个关键模块:门控单元模块(GUM)和聚类提示模块(CPM)。GUM通过过滤非记忆性交互并聚焦于最相关的显著内容来提升处理效率;CPM则建立自适应记忆标准,指导LLMs判断哪些信息应被记住或丢弃,并分析用户意图与记忆上下文之间的关系以构建有效的聚类提示。全面的直接和间接评估表明,该方法具有良好的效果和泛化能力。独立评估显示,SAMD能够成功召回大部分有价值的数据,并在动态场景中保持鲁棒性。当集成到个性化应用中时,SAMD显著提升了记忆构建的效率和质量,从而更好地组织个人知识。
记忆管理 LLM 场景感知 信息筛选 个性化应用
论文聚焦于LLM的记忆管理机制,提出场景感知记忆筛选方法,直接针对记忆过滤与组织问题。
TS-Memory: Plug-and-Play Memory for Time Series Foundation Models
Sisuo Lyu, Siru Zhong, Tiegang Chen, Weilin Ruan, Qingxiang Liu et al.
The Hong Kong University of Science and Technology (Guangzhou) Guangzhou, China Tencent Shenzhen, China
9/10 2026-02-12 cs.LG PDF
时间序列基础模型(TSFMs)通过大规模预训练实现了强大的零样本预测能力,但在面对分布偏移时适应下游领域仍具有挑战性。现有解决方案面临权衡:参数化适应可能导致灾难性遗忘并需要高昂的多领域维护成本,而非参数化检索虽能提升预测效果,但因数据存储搜索导致高推理延迟。本文提出参数化记忆蒸馏方法,并实现为TS-Memory,一种轻量级的记忆适配器,用于增强冻结的TSFMs。TS-Memory分为两个阶段训练:首先构建一个离线且无泄漏的kNN教师模型,从检索到的未来数据中合成置信度感知的分位数目标;其次通过置信度门控监督将检索诱导的分布校正蒸馏到轻量记忆适配器中。在推理过程中,TS-Memory以常数时间开销融合记忆与主干网络预测,实现无需检索的部署。实验表明,在多种TSFMs和基准测试中,TS-Memory在点预测和概率预测方面均优于代表性适应方法,且效率与冻结主干相当。
时间序列模型 记忆机制 模型适配 知识蒸馏
论文聚焦于时间序列基础模型的记忆机制设计,提出轻量级记忆适配器解决分布偏移问题。
Evaluating Memory Structure in LLM Agents
Alina Shutova, Alexandra Olenina, Ivan Vinogradov, Anton Sinitsin
HSE University
9/10 2026-02-11 cs.LG PDF
现代基于LLM的代理和聊天助手依赖长期记忆框架来存储可重用知识、回忆用户偏好并增强推理能力。随着研究者构建更复杂的记忆架构,分析其能力并指导未来设计变得愈发困难。现有长期记忆基准主要关注简单事实保留、多跳回忆和时间变化,但这些能力通常可通过简单的检索增强LLM实现,并未测试复杂记忆层次。为此,本文提出StructMemEval基准,用于测试代理组织长期记忆的能力,而不仅仅是事实回忆。我们收集了一系列需要人类通过特定结构组织知识的任务,如交易账本、待办事项列表和树状结构等。初步实验表明,简单检索增强LLM在这些任务上表现不佳,而若提示如何组织记忆,记忆代理则能可靠解决。然而,我们发现现代LLM在未被提示时并不总能识别记忆结构。这突显了未来在LLM训练和记忆框架改进中的重要方向。
长期记忆 记忆结构 LLM代理 基准测试 知识组织
论文聚焦于LLM代理的记忆结构评估,提出新的基准测试以检验复杂记忆组织能力。
Code
Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion
Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong et al.
国立大学新加坡 清华大学 南洋理工大学 北京邮电大学
9/10 2026-02-11 cs.CL PDF
检索增强生成(RAG)通过引入外部知识有效缓解了大语言模型(LLM)中的幻觉问题。然而,现有框架中文本的离散表示常导致语义完整性丢失,从而引发检索偏差。受人类情景记忆机制启发,本文提出CogitoRAG框架,模拟人类认知记忆过程。该框架的核心在于语义主旨的提取与演化。在离线索引阶段,CogitoRAG首先将非结构化语料库转化为主旨记忆语料库,并将其转换为融合实体、关系事实和记忆节点的多维知识图谱。在线检索阶段,框架通过查询分解模块将复杂查询拆解为多个子查询,模仿人类对复杂信息的认知分解过程。随后,实体扩散模块通过结构相关性和实体频率奖励机制进行关联检索。此外,本文提出CogniRank算法,通过融合扩散得分与语义相似度对候选段落进行精确重排序。最终证据以段落-记忆配对形式传递给生成器,提供高密度的信息支持。实验结果表明,CogitoRAG在五个主流问答基准测试和GraphBench的多任务生成任务中显著优于最先进的RAG方法,展示了其在复杂知识整合和推理方面的卓越能力。
RAG 语义记忆 知识图谱 认知模拟 检索增强生成
论文核心围绕记忆机制,提出模拟人类认知记忆过程的RAG框架,强调语义主旨提取与演化。
Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents
Yifei Li, Weidong Guo, Lingling Zhang, Rongman Xu, Muye Huang et al.
Xidian University Tencent
9/10 2026-02-11 cs.CL PDF
长期对话记忆是基于LLM的对话系统的核心能力,但现有基准和评估协议主要关注表层事实性回忆。在实际交互中,适当回应往往依赖于隐式约束,如用户状态、目标或价值观,这些内容并未被后续显式查询。为此,本文引入了LoCoMo-Plus,一个用于评估在提示与语义断开情况下认知记忆能力的基准。我们进一步表明,传统字符串匹配指标和显式任务类型提示与此类场景不一致,并提出了基于约束一致性的统一评估框架。实验结果表明,认知记忆仍具有挑战性,并揭示了现有基准未能捕捉到的失败案例。我们的代码和评估框架已公开。
long-term memory cognitive evaluation constraint consistency dialogue systems
论文聚焦于LLM代理的长期对话记忆评估,提出新的基准框架以测试认知记忆能力。
Code
When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning
Leheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang et al.
ByteDance Seed University of Science and Technology of China
9/10 2026-02-11 cs.CL PDF
在各种现实应用中,对长上下文进行推理至关重要,但大型语言模型(LLMs)在上下文长度增加时性能会下降。近期的工作MemAgent尝试通过类似RNN的循环处理上下文,并更新文本记忆以生成最终答案。然而,这种简单的递归记忆更新面临两个关键问题:(i)记忆可能迅速膨胀,因为其可以无差别地更新,甚至在没有证据的片段上;(ii)循环缺乏退出机制,导致即使收集到足够证据后仍进行不必要的计算。为了解决这些问题,我们提出了GRU-Mem,该方法引入了两个由文本控制的门控机制,以实现更稳定和高效的长上下文推理。具体而言,在GRU-Mem中,只有当更新门开启时才会更新记忆,而当退出门开启时,递归循环将立即终止。为了赋予模型这些能力,我们在端到端强化学习中引入了两个奖励信号 $r^{ ext{update}}$ 和 $r^{ ext{exit}}$,分别奖励正确的更新和退出行为。实验表明,GRU-Mem在多种长上下文推理任务中表现出色且效率高,通常比原始MemAgent快达400%。
记忆机制 长上下文推理 门控循环网络 强化学习
论文聚焦于改进Agent的记忆机制,提出门控机制以提升长上下文推理效率。
Code
STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory
Mingfeng Yuan, Hao Zhang, Mahan Mohammadi, Runhao Li, Jinjun Shan et al.
9/10 2026-02-09 cs.RO PDF
移动机器人通常在长时间跨度的多样化开放动态场景中部署,包括室内仓库和制造设施以及室外农业和道路作业环境。核心挑战是构建一个可扩展的长期记忆系统,以支持代理式工作流进行规划、检索和推理,同时能够处理不同粒度的开放指令并生成精确的操作答案。本文提出了STaR,一种代理推理框架,其一构建了一个与任务无关的多模态长期记忆系统,能够在保留细粒度环境语义(如对象属性、空间关系和动态事件)的同时泛化到未见过的查询;其二引入了一种基于信息瓶颈原理的可扩展任务条件检索算法,从长期记忆中提取出紧凑、非冗余且信息丰富的候选记忆集用于上下文推理。实验在NaVQA(混合室内外校园场景)和WH-VQA(基于Isaac Sim构建的定制化仓库基准)上进行,强调上下文推理能力。在两个数据集上,STaR始终优于强基线方法,取得更高的成功率和显著更低的空间误差。此外,STaR还被部署在真实Husky轮式机器人上,在室内外环境中展示了鲁棒的长期推理能力、可扩展性和实用价值。
长期记忆 任务条件检索 多模态机器人 信息瓶颈 上下文推理
论文聚焦于构建长期记忆系统,并提出任务条件检索算法,直接针对记忆机制的核心问题。
Code
Learning to Remember, Learn, and Forget in Attention-Based Models
Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci
9/10 2026-02-09 cs.LG PDF
在Transformer中,上下文学习(ICL)作为一种在线联想记忆机制,支撑其在复杂序列处理任务中的高性能表现。然而,在门控线性注意力模型中,这种记忆具有固定容量且易受干扰,尤其在处理长序列时表现不佳。本文提出Palimpsa,一种将ICL视为持续学习问题的自注意力模型,需解决稳定性-可塑性困境。Palimpsa采用贝叶斯元可塑性机制,每个注意力状态的可塑性与其重要性状态相关,该重要性状态由先验分布确定,以捕捉累积知识。实验表明,多种门控线性注意力模型可视为特定架构选择和后验近似,Mamba2是Palimpsa的一个特例,其中遗忘占主导地位。这一理论联系使得任何非元可塑模型都能转化为元可塑模型,显著扩展其记忆容量。实验结果显示,Palimpsa在MQAR基准测试和常识推理任务中均优于基线模型。
attention mechanism continual learning memory capacity Bayesian metaplasticity forgetting mechanism
论文聚焦于注意力模型中的记忆机制,提出解决稳定性-可塑性困境的Palimpsa模型,直接关联记忆容量与遗忘机制。
CompilerKV: Risk-Adaptive KV Compression via Offline Experience Compilation
Ning Yang, Chengzhi Wang, Yibo Liu, Baoliang Tian, Haijun Zhang
9/10 2026-02-09 cs.LG PDF
大型语言模型(LLMs)在长上下文场景中受到Key-Value(KV)缓存内存线性增长的严重限制。现有的KV压缩方法依赖静态阈值和仅基于注意力的启发式方法,或粗略的内存预算分配。在严格的内存预算下,这些方法忽略了两个关键因素:与提示相关的压缩风险变化以及不同注意力头的功能异质性,这导致了标记选择不稳定并引发尾部失败。为了解决这些问题,我们提出了CompilerKV,一种风险自适应且关注注意力头差异的压缩框架,通过将离线经验编译为可重用的决策表来实现仅预填充部署。CompilerKV集成了两个关键协同组件:(i) 通过离线上下文老虎机学习得到的注意力头异质性表,用于分配特定于头的可靠性权重以明确管理不同注意力头的功能差异;(ii) 风险自适应阈值门控机制,联合建模注意力熵和局部困惑度,将提示级别的风险转化为可部署的保留阈值。在LongBench上的实验表明,在512个token的预算下,CompilerKV优于现有最先进方法,恢复了97.7%的FullKV性能,并比最强竞争者提升了高达5.2分。
KV压缩 长上下文处理 注意力机制优化 内存管理
论文聚焦于KV缓存压缩,直接解决LLM在长上下文场景中的记忆机制瓶颈问题。
Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs
Ahmed Salem, Andrew Paverd, Sahar Abdelnabi
9/10 2026-02-09 cs.LG PDF
大型语言模型(LLMs)通常被视为无状态的:一旦交互结束,除非显式存储并重新提供信息,否则不会假设任何信息持续存在。本文挑战这一假设,引入隐式记忆——模型通过在其输出中编码信息,并在后续交互中重新引入这些输出以恢复信息的能力。该机制无需显式记忆模块,却能在推理请求之间创建持久的信息通道。作为具体案例,我们提出了一种新的时间炸弹类时序后门,其仅在满足通过隐式记忆积累的隐藏条件的交互序列后激活。我们展示了此类行为可通过简单的提示或微调实现。此外,我们分析了隐式记忆更广泛的含义,包括隐蔽的智能体间通信、基准污染、定向操控和训练数据中毒等。最后,我们讨论了检测挑战,并概述了压力测试与评估的方向,旨在预测和控制未来的发展。为促进未来研究,我们发布了代码和数据。
隐式记忆 LLM 后门攻击 信息持久化 安全风险
论文核心研究LLM的隐式记忆机制,探讨其在无显式存储模块下的信息持久化能力。
Code
Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning
Zhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang
9/10 2026-02-09 cs.CL PDF
大型语言模型(LLMs)在处理长上下文时面临显著挑战,包括二次计算成本、信息遗忘以及检索增强生成(RAG)中的上下文碎片化问题。本文提出了一种基于分块压缩和选择性记忆召回的认知启发框架,用于高效长上下文推理,而非处理所有原始标记。该框架将长输入分割为块,并使用学习到的压缩器将每个块编码为压缩记忆表示。一个门控模块动态选择相关记忆块,然后通过具有演化工作记忆的推理模块进行迭代处理以解决下游任务。压缩器和推理器通过端到端强化学习联合优化,而门控模块作为分类器单独训练。实验结果表明,所提方法在多跳推理基准如RULER-HQA上实现了具有竞争力的准确性,可将上下文长度从7K扩展到1.75M个标记,并且相比强长上下文基线,在准确性和效率之间取得了较好的平衡。特别是,它在峰值GPU内存使用量上减少了高达2倍,在推理速度上提升了6倍。
长上下文处理 记忆压缩 强化学习 推理优化
论文聚焦于记忆压缩与选择性召回机制,直接针对LLM的长期记忆处理问题。
MIND: Benchmarking Memory Consistency and Action Control in World Models
Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao et al.
9/10 2026-02-08 cs.CV PDF
世界模型旨在理解和预测动态视觉环境,但目前缺乏统一的基准来评估其基本能力。为解决这一问题,本文引入了MIND,这是首个用于评估世界模型中记忆一致性和动作控制的开放领域闭环重访基准。MIND包含250个高质量1080p和24 FPS视频,涵盖共享动作空间下的100个第一人称和100个第三人称视频片段,以及跨不同动作空间的25+25片段,覆盖八个多样化场景。我们设计了一个高效的评估框架,用于衡量两个核心能力:记忆一致性和动作控制,捕捉不同视角下的时间稳定性和上下文连贯性。此外,我们设计了多种动作空间,包括不同的角色移动速度和相机旋转角度,以评估在共享场景下跨动作空间的动作泛化能力。为促进未来在MIND上的性能基准测试,我们引入了MIND-World,一种新颖的交互式视频到世界的基线模型。大量实验表明了MIND的完整性,并揭示了当前世界模型中的关键挑战,包括长期记忆一致性维护的困难和跨动作空间的泛化能力不足。
world model memory consistency action control benchmark video-to-world
论文聚焦于世界模型的记忆一致性,是记忆机制的核心研究。
Code
DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity
Jitai Hao, Qiang Huang, Yaowei Wang, Min Zhang, Jun Yu
9/10 2026-02-08 cs.CL PDF
在自主代理、长链推理和创意写作等应用中,高效长上下文LLM的部署受到KV缓存内存线性增长的根本限制。现有压缩和淘汰方法难以平衡准确性、压缩率和硬件效率。本文提出DeltaKV,一种基于残差的KV缓存压缩框架,其灵感来源于两个实证发现:长距离标记间的相似性以及KV表示中高度共享的潜在组件。DeltaKV不删除标记,而是相对于检索到的历史参考对语义残差进行编码,在保持保真度的同时显著减少存储需求。为进一步将压缩优势转化为实际系统加速,我们引入了Sparse-vLLM,一个具有解耦内存管理和针对稀疏和不规则KV布局优化的高性能推理引擎。实验表明,DeltaKV在LongBench、SCBench和AIME上保持接近无损精度的同时,将KV缓存内存减少至原始的29%。当与Sparse-vLLM集成时,在长上下文场景下可实现比vLLM高达2倍的吞吐量提升,展示了可扩展长上下文LLM部署的实际路径。
KV缓存压缩 长上下文LLM 内存优化 残差编码 推理引擎
论文聚焦于KV缓存压缩,直接解决LLM在长上下文场景下的内存瓶颈问题,属于记忆机制中的长期记忆与存储优化。
Code
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
Weihao Zeng, Yuzhen Huang, Junxian He
Hong Kong University of Science and Technology
9/10 2026-02-08 cs.AI PDF
大型语言模型(LLMs)在执行长期、现实任务方面的能力不断增强。然而,随着上下文长度的增长,其可靠性往往会下降,这一现象被称为“上下文腐化”。现有的长上下文基准主要集中在单步设置中评估模型从长片段中检索信息的能力。然而,在现实场景中,LLMs通常需要作为代理来探索环境、遵循指令和计划、提取有用信息,并在动态增长的上下文中预测正确动作。为此,我们引入了LOCA-bench(长上下文代理基准)。给定一个任务提示,LOCA-bench利用对环境状态的自动化和可扩展控制来调节代理的上下文长度。这种设计使LOCA-bench能够在受控方式下将上下文长度潜在地扩展到无限,同时保持底层任务语义不变。LOCA-bench评估语言代理作为模型和辅助结构的组合,包括各种上下文管理策略。尽管随着环境状态变得复杂,代理性能通常会下降,但先进的上下文管理技术可以显著提高整体成功率。我们开源了LOCA-bench,以提供一个平台来评估模型和辅助结构在长上下文、代理场景中的表现。
长上下文 语言代理 上下文管理 基准测试
论文聚焦于长上下文场景下语言代理的性能评估,直接涉及记忆机制与上下文管理策略。
Code
Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs
Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang et al.
9/10 2026-02-08 cs.CL PDF
将大型语言模型(LLMs)个性化到特定用户需要整合大量的交互历史和用户资料,但由于输入令牌限制,这在实际应用中面临高推理延迟和API成本的问题。现有方法依赖启发式策略,如选择近期交互或提示摘要模型压缩用户资料,但这些方法未能考虑LLMs内部对不同资料部分的处理与优先级。本文研究LLMs的注意力模式是否能有效识别重要的个性化信号,用于智能上下文压缩。初步研究表明,LLMs的注意力模式自然揭示了关键信号,且微调可增强其区分相关信息的能力。基于此,本文提出Attn-GS框架,利用标记模型的注意力反馈标记重要句子,再指导压缩模型生成高质量、任务相关的压缩用户上下文。实验表明,Attn-GS在多种任务、令牌限制和设置下显著优于各种基线方法,在性能接近使用完整上下文的同时,减少令牌使用量达50倍。
上下文压缩 个性化LLM 注意力机制 记忆优化
论文聚焦于LLM的记忆机制,通过注意力引导上下文压缩以提升个性化效果,属于记忆机制的核心研究。
Learning to Continually Learn via Meta-learning Agentic Memory Designs
Yiming Xiong, Shengran Hu, Jeff Clune
9/10 2026-02-08 cs.AI PDF
基础模型的状态无关性限制了代理系统持续学习的能力,这是长期推理和适应性的核心能力。为解决这一问题,代理系统通常引入记忆模块以保留和重用过去经验,从而实现在测试时的持续学习。然而,现有记忆设计多为人工制定且固定,难以适应真实任务的多样性和非平稳性。本文提出ALMA框架,通过元学习自动优化记忆设计,取代人工设计的记忆模块,减少人力投入,并使代理系统能够在不同领域中成为持续学习者。该方法采用一个元代理,在开放环境中搜索以可执行代码表示的记忆设计方案,理论上允许发现任意类型的记忆结构及其检索和更新机制。在四个顺序决策领域的广泛实验表明,所学记忆设计在所有基准测试中均比最先进的手工设计记忆方案更有效、更高效地从经验中学习。当安全开发和部署时,ALMA代表了迈向自我改进AI系统的重要一步,这些系统能够学习成为适应性强的持续学习者。
持续学习 元学习 记忆设计 代理系统 自动化优化
论文聚焦于记忆机制的设计与自动化学习,旨在提升Agent的持续学习能力,属于记忆机制的核心研究。
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang et al.
9/10 2026-01-15 cs.AI PDF
当前人工智能向智能体科学的发展受限于超长周期自主性——即在持续数天或数周的实验周期中维持战略连贯性与迭代修正的能力。尽管大语言模型(LLMs)在短周期推理中表现优异,但在高维、延迟反馈的真实科研环境中易被执行细节淹没,难以将稀疏反馈整合为长期指导。本文提出ML-Master 2.0,一种掌握超长周期机器学习工程(MLE)的自主智能体。通过将上下文管理重构为认知积累过程,引入受计算机系统启发的分层认知缓存(HCC)架构,实现经验在时间维度上的结构化区分。HCC动态将瞬时执行轨迹提炼为稳定知识与跨任务智慧,使智能体解耦即时执行与长期实验策略,有效突破静态上下文窗口的扩展限制。在OpenAI MLE-Bench上24小时预算内,ML-Master 2.0达到56.44%的最先进奖牌率。
Agent Memory Long-horizon Autonomy
提出分层认知缓存机制,核心解决长期记忆与知识积累问题。
Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core
Mengmeng Peng, Zhenyu Fang, He Sun
9/10 2026-01-15 cs.LG PDF
当前大语言模型(LLMs)存在参数纠缠问题,即通用推理能力(逻辑)与具体事实知识(事实)在共享权重中处于叠加态,导致“记忆墙”现象,浪费计算资源并引发幻觉。本文提出“数字代谢”假说,认为定向遗忘是提炼纯神经逻辑核心的必要过程。为此,我们设计了再生性逻辑核心协议(RLCP),一种双流训练框架,通过深层梯度反转使特定事实依赖在线性层面不可解码。在Qwen2.5-0.5B上的实验显示,模型对目标事实的保留率趋近于零(准确率<7%),同时呈现出“结构结晶化”效应。GSM8K测试表明,该“代谢”模型自发采用思维链(CoT)推理,以补偿直接联想回忆的缺失(从O(1)回忆转向O(N)推理)。该研究为模块化“神经CPU+符号RAM”架构奠定基础。
Agent Memory Neural Logic Core
提出“数字代谢”机制,通过定向遗忘解耦逻辑与事实记忆,直接研究Agent Memory核心架构。
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records
Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
9/10 2026-01-14 cs.AI PDF
尽管GUI智能体在显式和完成型指令下表现优异,但实际部署需对齐用户更复杂的隐式意图。本文提出“个性化GUI智能体的分层隐式意图对齐”(PersonalAlign)新任务,要求智能体利用长期用户记录作为持久上下文,解析模糊指令中省略的偏好,并基于用户状态预判潜在例行行为以提供主动协助。为此,我们构建了AndroidIntent基准,包含从2万条长期记录中标注的775项用户偏好与215个例行流程。同时,我们提出分层意图记忆智能体(HIM-Agent),持续更新个人记忆并分层组织偏好与例行行为以实现个性化。在AndroidIntent上的评估表明,HIM-Agent相较GPT-5、Qwen3-VL和UI-TARS等模型,在执行与主动性能上分别提升15.7%和7.3%。
Agent Memory Personalization
论文核心提出基于长期用户记录的分层意图记忆机制,明确构建个性化记忆系统。
Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou
9/10 2026-01-14 cs.CL PDF
在语言模型(LMs)中,当关于同一事件的不一致信息被编码到模型的参数化知识中时,会引发内部记忆知识冲突。以往工作主要通过微调或知识编辑等方法解决模型内部知识与外部资源之间的冲突,但对预训练阶段在模型内部表征中产生的冲突定位问题尚未探索。本文基于机制可解释性方法构建框架,识别预训练数据中的冲突知识在语言模型中的编码位置与方式。研究发现,模型特定内部组件负责编码预训练中的冲突知识,并展示了如何利用机制可解释性方法在推理阶段对冲突知识进行因果干预与控制。
机制可解释性 知识冲突
聚焦语言模型内部记忆中知识冲突的机制与定位,属核心记忆研究。
MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel
Microsoft Microsoft ResearchUnited States
9/10 2026-01-08 cs.AI PDF
本文提出MineNPC-Task,一个由用户构建的基准与评估框架,用于在开放世界《我的世界》中测试具备记忆能力、支持混合主动性的大语言模型智能体。任务源自与专家玩家的协作游戏,经规范化为带显式前提条件与依赖结构的参数化模板,并配以机器可验证的校验器,遵循禁止利用外部知识的有限知识策略。该框架记录计划/行动/记忆事件(包括计划预览、定向澄清、记忆读写、前提检查与修复尝试),并基于游戏内证据统计子任务完成情况。初步实验使用GPT-4o,在8名资深玩家参与下评估了216个子任务,揭示了代码执行、物品/工具操作、引用与导航中的常见失败模式,以及依赖混合主动性澄清和轻量记忆的恢复机制。参与者对交互质量与界面可用性给予积极评价,同时指出跨任务记忆持久性的不足。作者开源完整任务套件、验证器、日志与评估框架,以支持未来具身记忆智能体的透明、可复现评估。
Agent Memory Embodied AI
论文聚焦于评估具有记忆能力的LLM智能体,明确设计记忆读写、持久性等机制。
Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices
Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Leyi Pan, Chiming Duan et al.
Peking UniversityBeijingChina Alibaba GroupChina Tsinghua UniversityChina Institute of Artificial IntelligenceChina
9/10 2026-01-06 cs.SE PDF
随着微服务系统日益复杂,故障频发,准确的根因定位对保障系统可靠性至关重要。现有LLM方法常受限于浅层症状推理和缺乏跨告警复用,导致精度低、延迟高。本文通过调研多位站点可靠性工程师(SRE)的根因分析实践,提炼出递归性、多维扩展性和跨模态推理三大特征,并据此提出AMER-RCL框架。该框架结合递归推理引擎与智能体记忆(Agentic Memory),前者对每个告警进行递归细化候选根因,后者在时间窗口内累积并复用历史推理结果,减少冗余探索。实验表明,AMER-RCL在定位准确率和推理效率上均优于现有最先进方法。
Agent Memory Root Cause Localization
论文提出Agentic Memory机制,作为核心组件用于跨告警推理复用,显著提升效率与准确性。
Memory Bank Compression for Continual Adaptation of Large Language Models
Thomas Katraouras, Dimitrios Rafailidis
9/10 2026-01-02 cs.LG PDF
大语言模型(LLMs)在日常应用中广泛使用,但其知识易随数据演化而过时。持续学习旨在更新模型知识而不遗忘旧信息,但全量微调计算成本高且易导致灾难性遗忘。现有记忆增强方法通过外部记忆库存储信息,但在真实场景中面临记忆库无限增长的问题。本文提出MBC模型,通过码本优化策略在线压缩记忆库,并引入在线重置机制防止码本坍塌。同时,在LLM注意力层采用键值低秩适配(Key-Value LoRA),高效利用压缩后的记忆表示。实验表明,MBC在保持高保留准确率的同时,将记忆库规模压缩至最强基线的0.3%。
记忆压缩 持续学习
论文聚焦于LLM外部记忆库的压缩机制,直接研究Agent Memory核心问题。
Code
Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History
Bowen Wu, Wenqing Wang, Haoran Li, Ying Li, Jingsong Yu et al.
9/10 2025-03-07 cs.CL PDF
主动对话系统旨在使聊天机器人具备引导对话朝特定目标推进的能力,以提升用户参与度与服务自主性。现有系统通常仅关注预定义关键词或实体,忽视了对话历史中隐含的用户属性与偏好,难以建立长期用户亲密度。为此,本文提出将主动对话系统与长期记忆机制融合的统一框架,定义了名为“记忆感知主动对话”(MapDia)的新任务,并构建了首个中文记忆感知主动对话数据集(ChMapData)。此外,设计了一个基于检索增强生成(RAG)的联合框架,包含话题摘要、话题检索及主动话题转换检测与生成三个模块,以在适当时机引导对话回归相关历史话题。通过自动与人工评估验证了数据集与模型的有效性。
Agent Memory Proactive Dialogue
论文核心聚焦于将长期记忆融入主动对话系统,明确提出记忆感知任务。
Code
Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation
Shiwei Hong, Lingyao Li, Ethan Z. Rong, Chenxinran Shen, Zhicong Lu
乔治梅森大学
8/10 2026-02-16 cs.CL PDF
先前的研究已探索了LLM在多轮交互和反馈中的写作能力,但评估仍主要集中在提示词和局部反馈上,而在线社区的公众接受度尚未被充分研究。本文在受控的多智能体沙盒环境中测试广播式社区讨论是否能提升单口喜剧写作效果:在讨论条件下,评论和观众线程被记录、过滤并存储为社会记忆,随后用于条件化后续生成;而基线条件则不包含讨论。通过对50轮(250对独白)由五位专家标注员使用A/B偏好和15项评分标准进行评估,讨论条件在75.6%的实例中胜出,并显著提升了创作技巧/清晰度(Δ = 0.440)和社会反应(Δ = 0.422),偶尔还会增加攻击性幽默。
社会记忆 多智能体系统 幽默生成 社区反馈
论文通过记录、过滤和存储社区讨论作为社会记忆,用于后续生成,直接涉及记忆机制的设计与应用。
GPT-5 vs Other LLMs in Long Short-Context Performance
Nima Esmi, Maryam Nezhad-Moghaddam, Fatemeh Borhani, Asadollah Shahbahrami, Amin Daemdoost et al.
Bernoulli Institute, RUG, Groningen, The Netherlands Department of Computer Engineering, University of Guilan, Rasht, Iran TU Delft, The Netherlands
8/10 2026-02-15 cs.CL PDF
随着大语言模型(LLMs)上下文窗口的显著扩展,这些模型理论上能够一次性处理数百万个token。然而,研究表明,模型在实际应用中对长上下文中信息的稳健利用能力与理论容量之间存在显著差距,尤其是在需要全面理解大量细节的任务中。本文评估了四款最先进的模型(Grok-4、GPT-4、Gemini 2.5和GPT-5)在长短期上下文任务中的表现。为此,研究使用了三个数据集:两个补充数据集用于检索烹饪食谱和数学问题,以及一个包含20,000条社交媒体帖子的主要数据集用于抑郁检测。结果显示,当社交媒体数据集的输入量超过5,000条帖子(70,000个token)时,所有模型的表现显著下降,准确率降至约50-53%。值得注意的是,在GPT-5模型中,尽管准确性急剧下降,但其精确度仍保持在约95%,这一特性对于如抑郁检测等敏感应用可能非常有效。这项研究还表明,“中间迷失”问题在较新的模型中已基本得到解决。该研究强调了模型在复杂、高容量数据任务中的理论容量与实际性能之间的差距,并突出了除简单准确率之外的其他指标在实际应用中的重要性。
长上下文处理 模型性能评估 记忆机制 抑郁检测 GPT-5
论文聚焦于LLM在长上下文处理中的性能,涉及记忆机制和信息利用能力。
When Does Context Help? Error Dynamics of Contextual Information in Large Language Models
Dingzirui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che et al.
哈尔滨工业大学深圳校区
8/10 2026-02-09 cs.CL PDF
在推理过程中,如示例、检索知识或交互历史等上下文信息可以显著提升大语言模型(LLMs)的性能,而无需参数更新。然而,其理论作用在除上下文学习(ICL)等特定场景外仍不明确。本文提出了一种统一的理论框架,用于分析基于Transformer的LLMs中任意上下文信息的影响。通过输出误差动态刻画上下文影响,在单层Transformer中证明了上下文条件下的误差向量可分解为基线误差向量和上下文校正向量。这给出了误差减少所需的几何条件:上下文校正必须与基线误差负方向对齐并满足范数约束。进一步表明,上下文校正的范数受上下文-查询相关性和互补性决定。这些结果扩展到多上下文和多层Transformer。实验覆盖了ICL、检索增强生成和记忆演化,验证了该理论,并提出了一种原理性的上下文选择策略,提升了性能0.6%。
上下文学习 误差动态 Transformer 记忆机制
论文研究了上下文信息对LLM的影响,涉及记忆机制中的交互历史和知识检索。
PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri
8/10 2026-01-28 cs.AI PDF
大语言模型(LLMs)已推动组合优化问题(COPs)中自动化启发式设计(AHD)的发展,但现有框架依赖固定进化规则和静态提示模板,易导致短视生成、冗余评估及推理能力不足。本文提出PathWise——一种多智能体推理框架,将启发式生成建模为在蕴含图上的序贯决策过程,该图作为紧凑且具状态性的记忆结构,记录搜索轨迹并支持跨代信息复用或规避。系统包含策略智能体规划进化动作、世界模型智能体生成条件启发式 rollout,以及批评家智能体提供路由反思以总结历史经验,从而将LLM驱动的AHD从试错式进化转向基于状态感知的规划推理。实验表明,PathWise在多种COP上更快收敛至更优启发式,兼容不同LLM主干,并可扩展至更大规模问题。
Agent Memory Automated Heuristic Design
提出基于蕴含图的状态化记忆机制,用于记录和复用搜索轨迹,是启发式生成的关键组件。
ReCreate: Reasoning and Creating Domain Agents Driven by Experience
Zhezheng Hao, Hong Wang, Jian Luo, Jianqing Zhang, Yuyan Zhou et al.
8/10 2026-01-16 cs.AI PDF
大语言模型智能体正在重塑工业格局,但多数实用智能体仍依赖人工设计,因任务差异大而成本高昂。本文提出ReCreate——一种由经验驱动的自动领域智能体构建框架,系统性地利用智能体交互历史,从中提取成功或失败的原因及改进路径。该框架引入“智能体即优化器”范式,包含三大组件:按需调用的经验存储与检索机制、将执行经验映射为脚手架编辑的推理-创建协同流水线,以及将实例级细节抽象为可复用领域模式的分层更新策略。实验表明,ReCreate在多个领域中优于人工设计及现有自动化方法,即使从极简初始脚手架出发亦表现优异。
Agent Memory Automated Agent Creation
论文核心利用交互历史(即经验记忆)驱动Agent创建与优化,涉及记忆存储、检索与抽象机制。
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng et al.
8/10 2026-01-16 cs.LG PDF
基于可验证奖励的强化学习(RLVR)虽能有效提升大语言模型的推理能力,但近期研究表明,即使使用虚假或错误的奖励,如Qwen 2.5等模型仍能获得显著性能提升。本文发现这一现象背后存在“困惑度悖论”:虚假RLVR导致答案词元的困惑度下降,但提示侧的语义连贯性却退化,表明模型倾向于绕过推理而依赖记忆。通过路径修补、Logit Lens、JSD分析和神经微分方程,作者识别出一个隐藏的“锚点-适配器”回路:中层(L18–20)的功能锚点触发记忆检索,后续层(L21+)的结构适配器则调整表征以适应该捷径信号。进一步实验表明,调控该回路中特定MLP键可实现对污染驱动性能的双向因果干预。本研究为识别与缓解RLVR调优模型中的数据污染提供了机制性路线图。
Agent Memory Mechanistic Interpretability
论文揭示LLM在RLVR中通过记忆捷径绕过推理,深入分析记忆激活机制。
Code
LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers
Aryan Karmore
8/10 2026-01-15 cs.LG PDF
在边缘设备部署大语言模型需压缩KV缓存。现有量化方法虽减少存储,但因注意力计算前需将INT4/INT8键反量化为FP16,未能降低带宽开销。本文指出注意力评分等价于内积相似性搜索,可借鉴向量数据库压缩技术。提出LOOKAT方法,通过乘积量化与非对称距离计算,将键向量分解为子空间、学习码本,并利用查找表计算注意力,使注意力计算从内存受限转为计算受限。在GPT-2上实现64倍压缩(输出保真度95.7%)和32倍压缩(95.0%),无需修改架构或重新训练,且保持排名相关性ρ>0.95。理论分析表明相关性退化率为O(d_k/mK),在序列长度达1024时仍有效。
KV缓存压缩 内存高效推理
聚焦KV缓存压缩,属LLM推理内存优化,与Agent Memory密切相关但非专为Agent设计。
Role-Playing Agents Driven by Large Language Models: Current Status, Challenges, and Future Trends
Ye Wang, Jiaxing Chen, Hongjiang Xiao
8/10 2026-01-15 cs.CL PDF
近年来,随着大语言模型(LLMs)的快速发展,角色扮演语言智能体(RPLAs)成为自然语言处理与人机交互交叉领域的研究热点。本文系统综述了RPLAs的发展现状与关键技术,梳理了从早期基于规则的模板范式,经由语言风格模仿阶段,到以人格建模与记忆机制为核心的认知模拟阶段的技术演进路径。文章总结了支撑高质量角色扮演的关键技术路径,包括基于心理量表的角色建模、记忆增强的提示机制,以及基于动机-情境的行为决策控制。在数据层面,分析了角色专用语料库构建的方法与挑战;在评估方面,整理了涵盖角色知识、人格保真度、价值对齐与交互幻觉的多维评估框架及基准数据集。最后,展望了人格演化建模、多智能体协同叙事、多模态沉浸式交互及与认知神经科学融合等未来方向。
角色扮演智能体 记忆增强提示
论文将记忆机制作为角色扮演智能体认知模拟阶段的核心组成部分,并探讨记忆增强提示等关键技术。
Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts
Sijia Luo, Xiaokang Zhang, Yuxuan Hu, Bohan Zhang, Ke Wang et al.
8/10 2026-01-15 cs.LG PDF
强化学习(RL)已成为激发大语言模型(LLM)复杂推理能力的关键手段。然而,在长周期轨迹生成过程中存储键值(KV)缓存带来的巨大内存开销,成为在有限硬件上高效训练的主要瓶颈。现有KV压缩技术虽适用于推理阶段,但直接用于RL训练会引发严重的策略不匹配,导致性能崩溃。为此,本文提出Sparse-RL,通过稀疏感知拒绝采样与基于重要性的重加权机制,校正因压缩导致的信息损失所引入的离策略偏差,从而实现稳定训练。实验表明,Sparse-RL在显著降低轨迹内存开销的同时保持了模型性能,并天然支持稀疏推理部署,提升模型鲁棒性。
LLM Agent Memory 强化学习
聚焦KV缓存压缩对RL训练的影响,属LLM Agent内存效率关键问题。
SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation
Seoyeon Kim, Jaehyung Kim
8/10 2026-01-15 cs.AI PDF
大语言模型的个性化通常依赖静态检索或一次性适应,假设用户偏好恒定不变。然而,真实交互中用户兴趣持续演化,模型需在避免灾难性遗忘的同时适应偏好漂移。现有持续学习方法常因无差别更新噪声交互而失效,难以区分真实偏好变化与临时上下文。为此,本文提出SPRInG——一种新型半参数化持续个性化框架。训练阶段采用基于似然评分的漂移驱动选择性适应机制,仅在高新颖性交互上更新用户特定适配器,并将难学残差存入回放缓冲区;推理阶段通过严格相关性门控,结合参数化知识与检索历史进行logit插值。在长文本个性化生成基准上的实验表明,SPRInG显著优于现有基线,验证了其在现实持续个性化场景中的鲁棒性。
持续学习 个性化 半参数化记忆 偏好漂移
论文聚焦持续个性化中的记忆机制,结合参数与检索记忆应对偏好漂移。
Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation
Xinze Li, Zhenghao Liu, Haidong Xin, Yukun Yan, Shuo Wang et al.
8/10 2026-01-14 cs.CL PDF
检索增强生成(RAG)通过引入外部知识提升大语言模型(LLM)性能。近期研究将迭代知识累积机制融入RAG,以逐步积累并优化与查询相关的知识,但缺乏连贯的组织结构,限制了知识表示的完整性与一致性。为此,本文提出PAGER——一种面向RAG的页面驱动自主知识表示框架。PAGER首先引导LLM为给定问题构建包含多个知识维度槽位的结构化认知提纲,随后迭代检索并精炼相关文档以填充各槽位,最终形成一个连贯的上下文页面,用以指导答案生成。在多个知识密集型基准和主干模型上的实验表明,PAGER显著优于现有RAG方法。进一步分析显示,其构建的知识表示质量更高、信息更密集,能更有效缓解知识冲突,并提升LLM对外部知识的利用效率。
检索增强生成 结构化记忆 知识表示 大语言模型
提出结构化知识表示框架,用于迭代构建和组织外部记忆,是Agent Memory的关键组成部分。
Code
Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments
Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu et al.
8/10 2026-01-14 cs.AI PDF
当前大语言模型智能体主要采用被动响应范式,难以在动态环境中维持用户长期意图并自适应调整。本文提出一种主动式任务导向智能体新范式,通过两项核心能力实现:(i)基于对话历史自主构建触发条件的意图条件监控;(ii)在检测到有益环境更新时主动与用户交互。为此,我们构建了高质量数据合成流程,生成动态环境下的复杂多轮对话数据,并提出新基准ChronosBench以弥补动态任务导向交互评估标准的缺失。实验表明,现有主流模型在此类长期任务中表现不足,而基于合成数据微调的模型在包含用户意图变化的复杂任务上达到85.19%的任务完成率,验证了所提数据驱动策略的有效性。
Agent Memory Proactive Interaction
论文聚焦长期意图维护,涉及记忆机制以支持主动监控与环境适应。
PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind?
Yiwen Tu, Xuan Liu, Lianhui Qin, Haojian Jin
8/10 2026-01-14 cs.AI PDF
本文提出PRA,一种用于模拟个体用户如何基于现实新闻形成隐私关切的人工智能代理设计。区别于群体层面的情感分析,PRA融合隐私理论与认知理论,利用用户历史评论和上下文线索构建其个性化的“隐私心智”。该代理通过模拟有限理性的上下文过滤器动态激活相关隐私记忆,并生成反映用户在新隐私场景下可能反应的合成评论。研究还引入一个经校准的LLM-as-a-Judge评估器,依据既定隐私关切分类体系量化生成推理的忠实度。在Hacker News真实讨论数据上的实验表明,PRA在隐私关切预测上优于基线代理,并能跨AI、电商和医疗等领域迁移推理模式。
隐私推理 记忆建模
论文核心机制依赖隐私记忆的动态激活与重构,属Agent Memory关键应用。
Investigating Tool-Memory Conflicts in Tool-Augmented LLMs
Jiali Cheng, Rui Pan, Hadi Amiri
8/10 2026-01-14 cs.SE PDF
工具增强的大语言模型(LLMs)已推动众多应用发展,但可能面临知识冲突问题。本文提出一种新型知识冲突——工具-记忆冲突(Tool-Memory Conflict, TMC),即模型内部参数化知识与外部工具知识相互矛盾。研究发现,现有大语言模型在STEM相关任务中尤为容易受TMC影响。此外,不同条件下工具知识与参数化知识的优先级存在差异。作者评估了包括基于提示和RAG在内的现有冲突解决方法,结果表明这些方法均无法有效缓解工具-记忆冲突。
工具增强 知识冲突 参数化记忆 外部工具
聚焦工具知识与参数化记忆的冲突,属Agent Memory核心问题。
AgentOCR: Reimagining Agent History via Optical Self-Compression
Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu et al.
8/10 2026-01-08 cs.LG PDF
大型语言模型(LLM)的最新进展支持基于强化学习训练的多轮交互智能体系统,但其实际部署受限于不断增长的文本历史记录,导致令牌预算和内存消耗激增。本文提出AgentOCR框架,利用视觉令牌更高的信息密度,将累积的观察-动作历史压缩为紧凑的渲染图像。为实现可扩展的多轮推理,AgentOCR引入分段光学缓存机制,通过将历史分解为可哈希片段并维护视觉缓存,避免冗余重渲染。此外,该框架还提出智能体自压缩机制,使智能体能主动输出压缩率,并通过压缩感知奖励进行训练,以自适应平衡任务成功率与令牌效率。在ALFWorld和基于搜索的问答等挑战性基准上的实验表明,AgentOCR在保持超过95%文本智能体性能的同时,显著降低令牌消耗(>50%),并实现一致的令牌与内存效率提升。
Agent Memory Memory Compression
提出视觉化压缩历史记忆机制,直接优化Agent Memory效率。
BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents
Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo et al.
8/10 2026-01-08 cs.AI PDF
大语言模型(LLM)智能体通过结合规划、记忆和工具使用的多步工作流执行任务,这种设计虽提升了自主性,却也扩大了后门威胁的攻击面。针对现有研究碎片化、缺乏对跨阶段后门触发机制系统理解的问题,本文提出BackdoorAgent——一个模块化、阶段感知的统一框架,从智能体中心视角结构化分析规划攻击、记忆攻击和工具使用攻击三类功能阶段。该框架支持对触发器在不同阶段间激活与传播的系统性研究,并构建了涵盖Agent QA、Agent Code、Agent Web和Agent Drive四大典型应用的标准化基准。实验表明,单阶段植入的触发器可在多步中持续存在并传播,其中记忆攻击在GPT基座模型上触发持久率达77.97%,凸显智能体工作流对后门威胁的脆弱性。
LLM Agent Memory Attack
论文将记忆攻击作为三大核心攻击阶段之一,系统分析其在Agent工作流中的触发与传播机制。
Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis
Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao et al.
8/10 2026-01-08 cs.CL PDF
从海量且嘈杂的网络信息中合成高质量商业报告对高风险商业决策至关重要。尽管现有深度研究智能体已取得显著进展,其生成报告在质量、可靠性和覆盖范围方面仍显不足。本文提出Mind2Report——一种模拟商业分析师的认知深度研究智能体,通过细粒度意图探测、动态网络检索与信息即时记录,并迭代合成报告。该系统采用无需训练的智能体工作流,为通用大语言模型(LLMs)引入动态记忆机制,以支持长篇幅认知任务。作者构建包含200个真实商业任务的QRC-Eval评测集,并设计综合评估策略。实验表明,Mind2Report优于OpenAI和Gemini等主流深度研究智能体。
Agent Memory Dynamic Memory
提出动态记忆机制支持长程认知过程,是报告生成的关键组件。
Code
Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions
Abhishek Rath
8/10 2026-01-07 cs.AI PDF
多智能体大语言模型(LLM)系统已成为复杂任务分解与协作求解的强大架构,但其长期行为稳定性尚未得到充分研究。本文提出“智能体漂移”概念,指智能体在长期交互中行为、决策质量及相互一致性逐渐退化的现象,并构建包含语义漂移、协调漂移和行为漂移的理论框架。作者设计了涵盖12个维度的智能体稳定性指数(ASI)以量化漂移,并通过仿真分析揭示其对任务准确率和人工干预需求的负面影响。为缓解该问题,论文提出三种策略:情景记忆巩固、漂移感知路由协议和自适应行为锚定,理论分析表明这些方法可显著降低漂移错误并维持系统吞吐量。
agent drift episodic memory consolidation
提出情景记忆巩固作为缓解策略,Memory是关键组成部分。
Modality-Dependent Memory Mechanisms in Cross-Modal Neuromorphic Computing
Effiong Blessing, Chiung-Yi Tseng, Somshubhra Roy, Junaid Rehman, Isaac Nkrumah
8/10 2025-12-21 cs.LG PDF
增强记忆的脉冲神经网络(SNNs)有望实现高能效的神经形态计算,但其在不同感官模态间的泛化能力尚未探索。本文首次对SNN中的记忆机制开展全面的跨模态消融研究,评估Hopfield网络、分层门控循环网络(HGRN)和监督对比学习(SCL)在视觉(N-MNIST)与听觉(SHD)神经形态数据集上的性能。结果揭示显著的模态依赖性:Hopfield网络在视觉任务上达97.68%准确率,但在听觉任务仅76.15%;SCL则表现更均衡。研究证明记忆机制具有任务特异性而非普适性,并通过多模态联合训练验证了统一部署的有效性。定量记忆痕迹分析显示跨模态对齐较弱(相似度0.038),支持并行架构设计。该工作首次为神经形态系统中模态特异性记忆优化提供实证依据,能效比传统神经网络提升603倍。
神经形态计算 脉冲神经网络
聚焦记忆机制在神经形态计算中的跨模态表现,属核心记忆研究。
CangLing-KnowFlow: A Unified Knowledge-and-Flow-fused Agent for Comprehensive Remote Sensing Applications
Zhengchao Chen, Haoran Wang, Jing Yao, Pedram Ghamisi, Jun Zhou et al.
HZDR & IARAI
8/10 2025-12-17 cs.AI PDF
针对遥感数据处理缺乏统一端到端智能框架的问题,本文提出CangLing-KnowFlow,融合程序性知识库(PKB)、动态工作流调整机制与进化记忆模块。该系统基于1,008个专家验证的工作流案例指导任务规划,显著减少大模型幻觉;在运行失败时可自主诊断并重规划,其进化记忆模块持续从经验中学习,迭代提升性能。在包含324个工作流的新基准KnowFlow-Bench上,该方法在13种主流大模型上均优于Reflexion基线至少4%的任务成功率,展示了将专家知识转化为可适应、可验证流程的强大潜力。
Agent Memory Remote Sensing
提出进化记忆模块,是系统关键组件但非唯一焦点
Recommender systems: when memory matters
Aleksandra Burashnikova, Marianne Clausel, Massih-Reza Amini, Yury Maximov, Nicolas Dante
8/10 2021-12-04 cs.IR PDF
本文研究了长时记忆在包含用户隐式反馈的序列推荐系统可学习性中的作用。我们提出一种在线算法,其模型参数按用户逐块更新,每一块由一系列未点击项目后接一个点击项目构成。通过全面的实证评估表明,根据用户与系统交互中所包含的长时记忆程度进行筛选,可显著提升MAP和NDCG指标性能,尤其在大规模推荐系统训练场景下效果更为突出。
推荐系统 长时记忆
聚焦用户交互中的长时记忆对推荐系统性能的影响,属记忆机制应用研究。
Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)
Saurav Prateek
7/10 2026-01-28 cs.AI PDF
本文提出一种新型深度研究员架构,旨在生成博士级复杂主题的详尽研究报告,以克服并行扩展范式的固有局限。该系统包含两大创新:基于反思的顺序研究计划精炼机制和候选交叉算法。前者通过维护集中化的全局研究上下文,使智能体能在运行时回溯进展、推理并动态调整研究计划;后者则利用多个参数各异的大语言模型候选者探索更广搜索空间,并融合其发现以生成高事实密度的统一报告。在DeepResearch Bench基准上,该架构以46.21分超越现有主流深度研究智能体,验证了顺序扩展范式优于并行自一致性方法。
Agent Memory Sequential Planning
论文提出全局研究上下文机制,涉及运行时记忆维护与回溯,属Agent Memory关键应用。
Linear representations in language models can change dramatically over a conversation
Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan
DeepMind Stanford
7/10 2026-01-28 cs.CL PDF
语言模型的表征常包含对应高层概念的线性方向。本文研究这些表征在(模拟)对话上下文中的动态演化,发现线性表征在对话过程中可能发生显著变化:例如,对话初期被表征为事实的信息,在结尾可能被表征为非事实,反之亦然。此类变化具有内容依赖性——与对话相关的信息表征易变,而通用信息通常保持稳定。该现象在不同模型家族和网络层中均稳健存在,且即使重放由其他模型生成的对话脚本也能复现。然而,在明确标记为科幻故事的上下文中,此类适应效应显著减弱。此外,沿表征方向进行干预在对话不同阶段效果差异显著。结果表明,模型可能根据对话所提示的角色动态调整其内部表征,这对静态解释方法和特征探针构成挑战,也为理解模型如何适应上下文提供了新方向。
表征动态性 对话建模
研究对话中表征动态变化,涉及记忆内容的上下文依赖性演化。
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan et al.
7/10 2026-01-28 cs.CL PDF
大型语言模型(LLMs)向自主智能体的演进要求其管理大规模、动态变化的上下文。然而,现有基准测试多为静态,依赖被动检索任务,无法模拟智能体与环境交互中的非线性推理和迭代反馈等复杂性。为此,本文提出AgentLongBench,基于横向思维谜题构建模拟环境推演,生成涵盖知识密集型与无知识场景的严格交互轨迹。对当前先进模型及记忆系统(32K至4M tokens)的实验揭示了一个关键弱点:尽管在静态检索中表现良好,智能体在动态信息合成方面存在显著不足。分析表明,该性能退化主要由解决查询所需的最小token数量驱动,高信息密度的工具响应比长轮次对话中的记忆碎片化更具挑战性。
long-context memory agent evaluation
论文评估长上下文Agent在动态环境中的记忆表现,重点分析信息合成能力与记忆系统局限性。
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
Pingzhi Tang, Yiding Wang, Muhan Zhang
Peking University
7/10 2026-01-16 cs.LG PDF
大语言模型(LLMs)面临“知识截止”挑战,其冻结的参数化记忆难以直接内化新信息。尽管监督微调(SFT)常用于更新知识,但往往仅修改事实内容,未能有效提升模型利用新知识进行问答或决策的能力。强化学习(RL)对习得推理技能至关重要,但其高昂计算成本限制了在线适应效率。本文发现SFT与RL引起的参数更新近乎正交,据此提出参数化技能迁移(PaST)框架,通过从源域提取领域无关的技能向量,在目标模型经轻量SFT后线性注入知识操作技能。在SQuAD、LooGLE和ToolBench等基准上的实验表明,PaST显著提升知识整合与工具使用性能,展现出良好的可扩展性与跨域迁移能力。
参数化记忆 技能迁移
聚焦参数化记忆更新与技能迁移,涉及LLM记忆机制但非核心架构研究。
Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration
Yuejie Li, Ke Yang, Tao Wang, Bolin Chen, Bowen Li et al.
Ant GroupChina Zhejiang UniversityChina
7/10 2026-01-16 cs.IR PDF
基于图的检索增强生成(GraphRAG)框架在全局搜索的全面性与局部搜索的效率之间存在权衡。现有方法在处理大规模层次化图结构时,常面临检索路径优化、探索-利用平衡及多阶段重排序不足等挑战。为此,本文提出Deep GraphRAG框架,采用从全局到局部的层次化检索策略,融合社区间宏观与社区内微观上下文关系。该策略包含三阶段流程:社区间过滤、社区级精炼和实体级细粒度搜索,并引入基于束搜索优化的动态重排序模块以平衡效率与全面性。此外,其知识整合模块采用紧凑型LLM,结合新型强化学习算法DW-GRPO动态调整相关性、忠实性与简洁性三重目标的奖励权重,使1.5B模型在整合任务中接近70B大模型性能。在Natural Questions和HotpotQA上的实验表明,该方法在准确率与效率上显著优于基线。
GraphRAG 层次化记忆 检索增强生成 动态重排序 知识整合
论文聚焦检索增强生成中的层次化记忆组织与整合,属Agent Memory关键支撑技术。
Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems
Amir Khurshid, Abhishek Sehgal
7/10 2026-01-15 cs.AI PDF
大语言模型(LLM)通常通过检索增强生成(RAG)构建上下文,采用top-k段落选择策略,易导致文档结构信息碎片化、内容重复及查询上下文不足(如缺乏二阶、三阶语义维度)。本文提出一种融合结构信息与多样性约束的上下文气泡构建框架,在严格令牌预算下组装连贯、可引用的文本片段。该方法利用文档固有结构(如章节、行等多粒度片段)并引入任务条件化的结构先验指导检索;从高相关性锚点出发,通过平衡查询相关性、边际覆盖度与冗余惩罚进行受限选择,显式控制多样性与预算,生成紧凑且信息丰富的上下文集。系统同时输出完整检索轨迹,支持可审计性与确定性调优。在企业文档上的实验表明,该方法显著减少冗余、更好覆盖次级语义维度,并在有限上下文窗口内提升回答质量与引用忠实度。消融实验证明结构先验与多样性约束均不可或缺。
检索增强生成 上下文管理
聚焦上下文构建机制,涉及信息组织与冗余控制,属记忆相关但非核心记忆架构。
CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking
Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie et al.
7/10 2026-01-15 cs.CL PDF
大语言模型(LLMs)在心理健康场景中日益普及,但在长时间交互中难以维持现实且目标导向的对话。尽管LLMs能生成流畅回应,其优化目标局限于当前轮次,缺乏对治疗进展的连贯建模,导致长期对话出现脆弱性和偏离。本文提出CALM-IT框架,用于生成与评估长篇动机式访谈(MI)对话,显式建模双角色(治疗师与来访者)的对话动态。该框架将互动表示为双向状态空间过程,双方持续更新对彼此目标一致性、心理状态及短期目标的推断,以指导策略选择与话语生成。大规模评估表明,CALM-IT在有效性与目标一致性方面显著优于强基线,且随对话长度增加仍保持高度稳定性。尽管治疗师重定向次数较少,其来访者接受率最高(64.3%),表明干预时机更精准、更具治疗一致性。研究证实,建模演化的对话状态对生成高质量长篇合成对话至关重要。
对话系统 状态建模
论文建模对话状态演化,涉及长期交互中的状态记忆机制,但未直接聚焦记忆架构。
Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs
Biswesh Mohapatra, Théo Charlot, Giovanni Duca, Mayank Palan, Laurent Romary et al.
7/10 2026-01-14 cs.CL PDF
共识在情境化口语对话中至关重要,对话双方需建立并维持对实体、事件和关系的共享指代,以保障交互连贯性。对于对话系统而言,准确地将对话内容锚定于上下文并在后续引用尤为关键。尽管已有研究表明大语言模型(LLM)能执行请求澄清或生成确认等锚定行为,但鲜有工作探讨如何显式表征并存储共识以供后续使用。缺乏此类机制,难以判断确认或澄清行为是否真正反映理解。本文评估模型在情境对话中通过关系性指代建立并利用共识的能力,测试多种共识表征方法,并提出改进共识建立及其后续使用的策略。
common ground dialogue systems
论文聚焦于对话中共同基础的显式表示与存储,涉及记忆机制但非核心主题。
Text as a Universal Interface for Transferable Personalization
Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang et al.
7/10 2026-01-08 cs.CL PDF
本文研究大语言模型(LLM)中的个性化问题。现有工作多将用户偏好表示为隐式的、模型特定的向量或参数,导致难以解释和跨模型/任务迁移的“黑盒”画像。作者主张采用自然语言作为通用、与模型和任务无关的偏好表示接口,从而生成可解释、可复用且能随新交互持续演化的偏好描述。为此,提出两阶段训练框架:结合高质量合成数据的监督微调与强化学习,以优化长期效用和跨任务可迁移性,并构建AlignXplore+模型生成文本化偏好摘要。在九个基准上的实验表明,该8B模型性能超越更大规模开源模型,并展现出强跨任务、跨模型族及跨交互格式的迁移能力。
Agent Memory Personalization
提出用自然语言作为可迁移、可解释的偏好记忆表示,属于Agent Memory的重要应用。
ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu et al.
7/10 2025-12-21 cs.AI PDF
多模态大语言模型(MLLM)显著提升了具身智能体在规划与推理方面的能力。然而,在面对模糊自然语言指令(如“取工具”)时,现有智能体难以平衡物理探索的高成本与人类交互的认知成本,通常将消歧视为被动感知问题,缺乏最小化总任务执行成本的策略性推理。为此,本文提出ESearch-R1——一种成本感知的具身推理框架,将交互对话(Ask)、情景记忆检索(GetMemory)和物理导航(Navigate)统一为单一决策过程,并引入异构成本感知分组相对策略优化算法(HC-GRPO),通过采样多条推理轨迹并强化那些在信息增益与异构成本(如导航时间、人类注意力)之间取得最优权衡的轨迹来优化MLLM。在AI2-THOR环境中的大量实验表明,ESearch-R1显著优于标准ReAct智能体,在提升任务成功率的同时将总操作成本降低约50%。
具身智能 情景记忆 多模态大语言模型 强化学习
论文将情景记忆检索作为核心决策模块之一,但重点在于成本感知的交互式搜索框架。
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee et al.
6/10 2026-01-28 cs.LG PDF
当前人工智能系统缺乏部署后持续学习的能力,而实现此类系统面临诸多挑战,其中之一是主流基于梯度的大语言模型训练算法对内存的高需求。进化策略(ES)作为一种无梯度替代方法近期重新受到关注,并在特定任务中展现出良好性能。本文对ES进行了全面分析,重点评估其在不断增加更新步数下的遗忘曲线。研究发现,在相近计算预算下,ES在数学与推理任务上可接近GRPO的性能,但其性能提升伴随着对先前能力的显著遗忘,限制了其在线训练适用性。进一步分析表明,ES更新相比GRPO更新稀疏性更低且ℓ²范数高出数个数量级,解释了二者遗忘行为的差异。
灾难性遗忘 持续学习
研究持续学习中的遗忘问题,涉及记忆保持机制。
From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models
Youmi Ma, Naoaki Okazaki
6/10 2026-01-16 cs.CL PDF
机制可解释性研究已识别出一类特殊的注意力头——检索头(retrieval heads),其负责从上下文中检索信息。然而,这些检索头对模型性能的贡献尚未被充分探索。本文研究了如何利用检索头提升大语言模型的长上下文能力,并提出RetMask方法:通过对比正常模型输出与屏蔽检索头后的消融模型输出,生成训练信号。该基于机制的方法在Llama-3.1上于128K上下文长度下,在HELMET基准上提升2.28分,引用生成任务提升70%,段落重排序提升32%,同时保持通用任务性能。跨三个模型家族的实验表明,效果取决于检索头的组织方式:集中式模式响应显著,而分布式模式增益有限。该结果验证了检索头的功能,并证明机制洞察可转化为性能提升。
检索机制 长上下文建模
研究涉及上下文信息检索机制,与记忆机制相关但非核心Agent Memory架构。
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang et al.
6/10 2026-01-16 cs.CL PDF
个性化大语言模型(LLMs)通过适配用户个体行为以提升满意度,但可能无意中扭曲事实推理。本文发现,当面对事实性查询时,个性化LLM倾向于生成与用户历史偏好一致而非客观真实的答案,导致“个性化诱导幻觉”,损害事实可靠性并可能传播错误信念,其根源在于个性化表征与事实表征之间的表征纠缠。为此,作者提出一种轻量级推理时方法——保真个性化引导(FPPS),在保留个性化行为的同时缓解事实扭曲。此外,构建了首个联合评估个性化与事实问答能力的基准PFQABench。在多种LLM架构和个性化方法上的实验表明,FPPS显著提升事实准确性,同时维持个性化性能。
个性化大语言模型 幻觉缓解
涉及个性化记忆对事实推理的干扰,属记忆相关机制研究。
Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure
Syed Naveed Mahmood, Md. Rezaur Rahman Bhuiyan, Tasfia Zaman, Jareen Tasneem Khondaker, Md. Sameer Sakib et al.
BRAC University
6/10 2026-01-15 cs.CL PDF
从大语言模型中选择性擦除知识对GDPR合规与模型安全至关重要,但现有遗忘方法常将行为抑制误认为真正知识移除,导致潜在能力仍存。本文提出知识免疫框架(KIF),通过靶向内部激活签名而非表面输出,区分真实擦除与混淆。该方法结合动态抑制特定主题表征与参数高效适配,在无需全模型重训练下实现持久遗忘。KIF在保持接近神谕级效用的同时达成近神谕级擦除效果,突破了以往工作中的稳定性-擦除权衡。研究覆盖Llama、Mistral等基础模型及Qwen、DeepSeek等推理优先模型,揭示不同架构在遗忘行为上的根本差异,并提出结合表面泄露与潜在痕迹的双指标评估协议,首次系统诊断跨模型家族与规模的机制级遗忘行为。
知识遗忘 激活签名
涉及模型内部表征的遗忘机制,与记忆擦除相关但非Agent Memory核心。
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang et al.
6/10 2026-01-14 cs.AI PDF
多智能体系统已发展为由大语言模型驱动的实用协作者,在多样性与交叉验证中提升鲁棒性。然而,多智能体强化学习(MARL)训练成本高且不稳定:协同适应导致环境非平稳,奖励信号稀疏且方差大。为此,本文提出多智能体测试时强化学习(MATTRL)框架,在推理阶段将结构化文本经验注入多智能体协商过程。MATTRL组建由专家组成的多智能体团队进行多轮讨论,检索并整合测试时经验,最终达成共识决策。研究还探讨了轮次级信用分配机制,用于构建经验池并重新注入对话。在医学、数学和教育等挑战性基准上,MATTRL相较多智能体基线平均提升准确率3.67%,相较单智能体基线提升8.67%。消融实验分析了不同信用分配策略对性能的影响。该方法无需微调即可实现对分布偏移鲁棒、稳定高效的多智能体推理。
多智能体系统 测试时学习 经验重用 大语言模型
论文涉及在推理时注入结构化经验,属于记忆机制的应用,但非核心记忆架构研究。
SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams
Chenglong Wang, Canjia Li, Xingzhao Zhu, Yifu Huo, Huiyu Wang et al.
6/10 2026-01-14 cs.CL PDF
由于现实世界查询流具有动态演化特性,相关性模型难以泛化到实际搜索场景。现有自演化方法在大规模工业环境中面临两大挑战:(1)信息量丰富的样本稀疏且难以识别;(2)当前模型生成的伪标签不可靠。为此,本文提出自演化相关性模型(SERM),包含两个互补的多智能体模块:多智能体样本挖掘器用于检测分布偏移并识别信息量大的训练样本,多智能体相关性标注器通过两级共识机制提供可靠标签。在日均处理数十亿用户请求的大规模工业系统中评估表明,SERM通过迭代自演化显著提升性能,经多语言离线评估与在线测试验证有效。
多智能体系统 自演化学习
涉及多智能体协作中的信息筛选与标注,隐含记忆机制但未显式研究记忆架构。
What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding
Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao et al.
[
6/10 2026-01-14 cs.AI PDF
大型语言模型(LLM)智能体在复杂决策与工具使用任务中展现出卓越能力,但其在不同环境中的泛化能力仍缺乏深入评估。现有评估方法主要依赖衡量任务成功的轨迹指标,却忽视了智能体是否具备可迁移、具身化的环境模型。为此,本文提出Task-to-Quiz(T2Q)范式,通过确定性、自动化的问答机制将任务执行与环境状态理解解耦,并构建包含30个环境和1,967个具身问答对的T2QBench基准。实验表明,任务成功常不能反映真实环境理解水平,且现有记忆机制难以有效支持智能体构建具身环境模型。研究识别出主动探索与细粒度状态表示为主要瓶颈,为开发更具泛化能力的自主智能体奠定基础。
Agent Memory Environment Understanding
论文指出当前记忆机制无法有效支持环境建模,Memory是关键但非核心主题。
Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR
Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.
Harbin Institute of Technology, Shenzhen
6/10 2026-01-08 cs.CL PDF
当前角色扮演智能体(RPAs)通常通过模仿表层行为构建,缺乏内在认知一致性,易在复杂情境中出现“出戏”错误。为此,本文提出Character-R1框架,旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计:(1)认知焦点奖励,通过显式标签分析10个角色要素(如世界观)以结构化内部认知;(2)参考引导奖励,利用与参考回答的重叠度指标作为优化锚点,提升探索与性能;(3)角色条件奖励归一化,依据角色类别调整奖励分布,确保异构角色下的鲁棒优化。大量实验表明,Character-R1在知识、记忆等方面显著优于现有方法。
角色扮演智能体 强化学习
论文提及memory作为评估维度之一,但核心聚焦于角色一致性奖励机制。
Plenoptic Video Generation
Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu et al.
6/10 2026-01-08 cs.CV PDF
尽管如ReCamMaster等相机控制的生成式视频重渲染方法在单视角场景中取得显著进展,但在多视角场景下仍难以维持时空一致性,尤其在生成模型固有随机性导致的幻觉区域。为此,本文提出PlenopticDreamer框架,通过同步生成式幻觉以维护时空记忆。其核心是采用自回归方式训练多输入单输出的视频条件模型,并结合相机引导的视频检索策略,自适应选取先前生成中的显著视频作为条件输入。此外,该方法引入渐进式上下文缩放以提升收敛性、自条件机制以缓解长程视觉退化,并支持长视频条件生成。在Basic和Agibot基准上的实验表明,PlenopticDreamer在视图同步、视觉保真度、相机控制精度及多样化视角变换方面达到领先水平。
视频生成 时空一致性
提出“spatio-temporal memory”概念用于多视角视频生成一致性,属记忆机制应用。
Agent-as-a-Judge
Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu et al.
6/10 2026-01-08 cs.CL PDF
大语言模型作为裁判(LLM-as-a-Judge)通过利用大语言模型实现了可扩展的AI评估,但随着被评估对象日益复杂、专业化和多步骤化,其可靠性受限于固有偏见、浅层单次推理以及无法对照现实观察进行验证。为此,研究转向“以智能体为裁判”(Agent-as-a-Judge),其中智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆,实现更稳健、可验证且细致的评估。尽管此类系统迅速发展,领域内仍缺乏统一框架。本文首次对该演进路径进行全面综述,提出刻画范式转变的关键维度与发展阶段分类法,梳理核心方法并覆盖通用与专业领域的应用,同时分析前沿挑战并指明未来研究方向。
Agent Memory AI Evaluation
论文将持久记忆作为Agent-as-a-Judge的关键能力之一,但非核心研究主题。
Nalar: An agent serving framework
Marco Laju, Donghyun Son, Saurabh Agarwal, Nitin Kedia, Myungjin Lee et al.
6/10 2026-01-08 cs.DC PDF
由大语言模型驱动的智能体应用日益用于自动化复杂的多步骤任务,但其高效服务仍面临挑战,包括异构组件、动态且模型驱动的控制流、长时运行状态及不可预测的延迟。Nalar是一个从底层构建的智能体服务框架,清晰分离工作流定义与执行,并提供运行时可见性与控制能力以保障稳健性能。该框架保留完整的Python表达能力,通过轻量级自动生成的存根将智能体与工具调用转化为携带依赖与上下文元数据的Future对象。其托管状态层将逻辑状态与物理位置解耦,支持安全复用、迁移及一致的重试行为。两级控制架构结合全局策略计算与本地事件驱动执行,实现对动态演进工作流的自适应路由、调度与资源管理。实验表明,Nalar在三个智能体工作负载上显著降低尾部延迟(34%–74%),最高提速2.9倍,在基线系统失效时仍可维持80 RPS,并能扩展至13万Future对象且控制开销低于500毫秒。
智能体服务 状态管理
论文提出托管状态层以解耦逻辑状态与物理存储,涉及Agent Memory机制但非核心焦点。
Challenges and Research Directions for Large Language Model Inference Hardware
Xiaoyu Ma, David Patterson
6/10 2026-01-08 cs.AR PDF
大语言模型(LLM)推理具有显著挑战性,其底层Transformer模型的自回归解码阶段使其与训练过程存在本质差异。受近期AI发展趋势影响,当前主要瓶颈在于内存与互连,而非计算能力。为应对这些挑战,本文提出四项架构研究方向:高带宽闪存以实现10倍于HBM的存储容量并保持相近带宽;近存计算与3D内存-逻辑堆叠以提升内存带宽;以及低延迟互连以加速通信。尽管聚焦数据中心AI场景,本文也探讨了上述技术在移动设备中的适用性。
LLM推理 硬件架构
聚焦LLM推理中的内存瓶颈,但非针对Agent Memory机制。
Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites
Ziyao Yi, Davide Piccinini, Diego Valsesia, Tiziano Bianchi, Enrico Magli
6/10 2026-01-08 eess.IV PDF
下一代地球观测卫星需在载荷端部署智能模型以降低地面段传输与处理延迟。本文针对星载高光谱成像场景,提出一种兼顾高质量推理、动态功耗可扩展性与容错能力的神经网络架构。该方法采用多个去噪器的混合结构,具备抗辐射故障能力并支持时变功耗调节;每个去噪器以因果方式逐行处理图像,并保留对先前行的记忆,契合推扫式传感器的数据采集过程,显著降低内存占用。实验表明,该架构可在低功耗硬件上实现实时处理(一行处理时间不超过下一行采集时间),且去噪性能媲美更复杂的先进模型。
星载计算 高光谱图像去噪
论文提出基于行处理的因果架构,利用对前序行的记忆以降低内存需求,涉及有限记忆机制但非LLM Agent核心记忆研究。
Higher-Order Knowledge Representations for Agentic Scientific Reasoning
Isabella A. Stewart, Markus J. Buehler
6/10 2026-01-08 cs.AI PDF
科学探究需要整合异构实验数据、跨领域知识与机制证据以形成连贯解释。尽管大语言模型具备推理能力,但其依赖的检索增强上下文常缺乏结构深度。传统知识图谱因仅建模二元关系,难以捕捉决定涌现物理行为的不可约高阶交互。本文提出基于超图的知识表示方法,可忠实编码多实体关系。在约1,100篇生物复合支架文献上构建的全局超图包含161,172个节点与320,201条超边,呈现无标度拓扑(幂律指数约1.23),围绕高度连接的概念枢纽组织。该表示避免了二元扩展导致的组合爆炸,并保留科学表述的共现语境。结合超图遍历工具(如节点交集约束),智能体可连接语义遥远概念,成功生成如通过壳聚糖中介将氧化铈与PCL支架关联的机制性假设。该“无教师”智能体系统以超图拓扑为可验证约束,加速发现被传统图方法掩盖的关系。
超图 智能体推理
论文涉及知识表示与检索机制,支撑Agent推理,但未直接研究记忆架构。
RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection
Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng et al.
6/10 2026-01-08 cs.CL PDF
跨领域虚假信息检测具有挑战性,因虚假信息在不同领域间存在显著的知识与话语差异。现有方法多依赖单一视角线索,难以泛化至困难或代表性不足的领域;而推理型大语言模型虽在复杂任务中有效,却受限于同分布数据假设。为此,本文提出RAAR——首个面向跨领域虚假信息检测的检索增强型智能体推理框架。RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源域证据,实现超越同分布假设的跨域迁移;并通过多智能体协作构建可验证的多步推理路径,其中各视角专用智能体生成互补分析,摘要智能体在验证器指导下进行整合。此外,RAAR采用监督微调与强化学习训练单一多任务验证器以提升推理与验证能力。基于该框架训练的RAAR-8b与RAAR-14b模型在三项跨领域虚假信息检测任务上显著优于基线模型、先进大语言模型及适配方法。
检索增强 多智能体系统
涉及检索增强机制,属于记忆相关应用,但非核心记忆架构研究。
Code
OptiSet: Unified Optimizing Set Selection and Ranking for Retrieval-Augmented Generation
Yi Jiang, Sendong Zhao, Jianbo Li, Bairui Hu, Yanrui Du et al.
6/10 2026-01-08 cs.AI PDF
检索增强生成(RAG)通过引入从大型外部语料库中检索到的证据来提升生成质量。然而,现有方法通常基于单个相关性静态选取前k个段落,未能利用段落间的组合增益,且常引入大量冗余。为此,本文提出OptiSet——一种以集合为中心的框架,统一进行集合选择与集合级排序。OptiSet采用“扩展-精炼”范式:首先将查询扩展为多个视角以构建多样化的候选池,再通过重选精炼形成紧凑的证据集;并设计了一种无需强LLM监督的自合成策略,从生成器的集合条件效用变化中推导偏好标签,识别互补与冗余证据;最后引入集合列表式训练策略,联合优化集合选择与排序,使模型偏好紧凑且高增益的证据集。大量实验表明,OptiSet在复杂组合问题上性能更优,且提升生成效率。
检索增强生成 证据选择
涉及RAG中的证据选择与冗余处理,属记忆检索优化,但未聚焦Agent Memory机制本身。
LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou et al.
6/10 2026-01-08 cs.RO PDF
视觉-语言-动作(VLA)模型在机器人操作中展现出强大的泛化能力。现有方法常通过显式生成语言推理轨迹或未来视觉观测来提升动作准确性,但会引入显著推理延迟,并受限于语言表征瓶颈,难以刻画不可言传的物理属性。为此,本文提出LaST₀框架,通过隐式的时空思维链(Latent Spatio-Temporal Chain-of-Thought)实现高效推理,捕捉难以语言化的细粒度物理与机器人动态。该方法构建了一个高效的隐式思维链空间,建模未来视觉动态、三维结构信息及机器人本体感知状态,并在时间维度上扩展以形成时序一致的隐式推理轨迹。LaST₀采用混合Transformer架构的双系统设计:推理专家执行低频隐式推理,动作专家基于面向机器人的隐式表征生成高频动作,并通过异构运行频率训练实现推理与动作速率的自适应切换。在10个仿真和6个真实世界操作任务中,LaST₀相较先前VLA方法平均成功率分别提升8%和13%,同时显著加快推理速度。
隐式推理 机器人操作
提出隐式时空推理轨迹,涉及状态记忆与时间一致性,但未聚焦传统记忆机制。
EvoRoute: Experience-Driven Self-Routing LLM Agent Systems
Guibin Zhang, Haiyang Yu, Kaiming Yang, Bingli Wu, Fei Huang et al.
6/10 2026-01-06 cs.CL PDF
由多个大语言模型(LLMs)、工具和记忆模块协同构成的复杂智能体系统在多轮复杂任务中展现出卓越能力,但其高昂成本与严重延迟揭示了性能、成本与速度之间的关键权衡难题,即“智能体系统三难困境”。为此,本文提出EvoRoute——一种自演化的模型路由范式,通过不断积累的先验经验知识库,在每一步动态选择帕累托最优的LLM主干模型,平衡准确性、效率与资源消耗,并利用环境反馈持续优化自身路由策略。在GAIA和BrowseComp+等挑战性基准上的实验表明,EvoRoute集成至现成智能体系统后,不仅维持或提升性能,还可降低执行成本高达80%,减少延迟超70%。
LLM Agent Model Routing
论文提及memory模块作为系统组件,但聚焦于模型路由优化而非记忆机制本身。
Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou et al.
5/10 2026-01-15 cs.AI PDF
尽管强化学习(RL)已推动大语言模型(LLM)的推理能力,但在长上下文场景中仍受限于结果奖励的稀疏性,难以惩罚无依据的“幸运猜测”,导致关键的“大海捞针”式证据检索过程缺乏监督。为此,本文提出EAPO(Evidence-Augmented Policy Optimization)。首先确立证据增强推理范式,并通过树状证据采样验证精确证据提取是长上下文推理的决定性瓶颈。EAPO引入一种专用RL算法,由奖励模型计算群体相对证据奖励,提供密集的过程监督以显式提升证据质量。为维持训练过程中监督的准确性,进一步设计自适应奖励-策略协同进化机制,利用结果一致的rollout迭代优化奖励模型,增强其判别能力以确保精准的过程引导。在八个基准上的综合评估表明,EAPO显著优于当前最先进基线。
强化学习 长上下文推理
涉及证据检索与长期上下文处理,间接关联记忆机制。
Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models
Michael R. Metel, Yufei Cui, Boxing Chen, Prasanna Parthasarathi
McGill University Mila
5/10 2026-01-14 cs.AI PDF
序列测试时缩放是一种无需训练即可提升大型推理模型准确率的有前景方法,但现有实现存在明显局限:延长推理长度虽可提升准确率,但过度延伸会导致性能下降与模型不稳定。本文提出一种新方法Min-Seek,在广泛推理长度范围内显著提升模型准确率,稳定序列缩放效果,并免除了对推理长度的精细调优。该方法仅在KV缓存中保留一个额外推理步骤的键值对,具备内在高效性。通过定制化KV缓存(存储不含位置编码的键,并在每次生成新推理前动态连续编码),该方法可突破模型最大上下文长度限制,在温和条件下实现线性计算复杂度。
测试时缩放 KV缓存优化
涉及KV缓存管理与上下文扩展,属记忆机制应用层面。
DocDancer: Towards Agentic Document-Grounded Information Seeking
Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao et al.
5/10 2026-01-08 cs.CL PDF
文档问答(DocQA)旨在回答基于给定文档的问题,但现有DocQA智能体缺乏有效的工具利用能力,且多依赖闭源模型。本文提出DocDancer,一个端到端训练的开源文档智能体。我们将DocQA建模为信息检索问题,并设计了一个工具驱动的智能体框架,显式建模文档探索与理解过程。为支持端到端训练,我们提出“探索-合成”数据合成流程,以缓解高质量DocQA训练数据稀缺问题。在MMLongBench-Doc和DocBench两个长上下文文档理解基准上的实验表明,所训练模型具有有效性。进一步分析为智能体工具设计与合成数据提供了有价值的见解。
文档问答 智能体工具使用
涉及文档探索与信息整合,隐含短期记忆机制,但未显式研究记忆架构。
ArcAligner: Adaptive Recursive Aligner for Compressed Context Embeddings in RAG
Jianbo Li, Yi Jiang, Sendong Zhao, Bairui Hu, Haochun Wang et al.
5/10 2026-01-08 cs.CL PDF
检索增强生成(RAG)有助于提升大语言模型的准确性,但将长文档输入提示会显著增加计算开销。为此,研究者提出了多种上下文压缩方法,如词元剪枝、摘要和嵌入压缩等。然而,过度压缩会导致模型难以理解信息。本文提出ArcAligner(自适应递归上下文对齐器),一种轻量级模块,集成于语言模型层中,以提升模型对高度压缩上下文表示的利用能力。其采用自适应“门控”机制,仅在信息复杂时增加计算,兼顾效率与性能。在多个知识密集型问答基准上,ArcAligner在相近压缩率下显著优于现有基线,尤其在多跳推理和长尾场景中表现突出。代码已开源。
RAG 上下文压缩
涉及压缩上下文表示,间接关联Agent记忆机制。
排序:
每页显示:
SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement
Xiaojun Jia, Jie Liao, Simeng Qin, Jindong Gu, Wenqi Ren et al.
南洋理工大学, 新加坡 中山大学, 中国 牛津大学, 英国
10/10 2026-02-15 cs.CR PDF
技能已成为编码代理中的核心抽象,用于封装长格式指令和辅助脚本以扩展工具增强行为。然而,这种抽象引入了一个未被充分评估的攻击面:基于技能的提示注入攻击,其中被污染的技能可以引导代理偏离用户意图和安全策略。在实践中,简单的注入通常会失败,因为恶意意图过于明显或偏离原始技能,导致代理忽略或拒绝它们;现有的攻击方法也大多是手工设计的。本文提出了一种针对代理技能的首个自动化隐蔽提示注入框架。该框架形成一个闭环,包含三个代理:攻击代理在显式隐蔽约束下合成注入技能,代码代理在真实工具环境中使用注入技能执行任务,评估代理记录操作轨迹(如工具调用和文件操作)并验证是否发生了目标恶意行为。我们还提出了一种恶意负载隐藏策略,将对抗性操作隐藏在辅助脚本中,同时注入优化的诱导提示以触发工具执行。在多种编码代理设置和现实世界软件工程任务中的广泛实验表明,我们的方法在实际场景下始终能实现较高的攻击成功率。
prompt injection agent security skill-based attack tool execution adversarial learning
论文聚焦于Agent技能注入攻击,直接涉及技能学习与工具调用机制,是技能相关研究的核心内容。
Code
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen et al.
Amazon Ohio State University Stanford University
10/10 2026-02-13 cs.AI PDF
Agent技能是用于增强LLM代理推理能力的结构化过程知识包。尽管其应用迅速增长,但目前尚无标准方法衡量其实际效果。本文提出SkillsBench基准测试,包含86个跨11个领域的任务,并配以精选技能和确定性验证器。每个任务在三种条件下进行评估:无技能、精选技能和自动生成技能。通过7种代理模型配置对7,308条轨迹进行测试。结果表明,精选技能使平均通过率提高了16.2个百分点,但不同领域效果差异显著(从软件工程的+4.5pp到医疗健康的+51.9pp),其中16项任务显示负面效果。自动生成技能整体无明显优势,表明模型无法可靠地生成自身所需的程序性知识。模块数为2-3的聚焦技能优于全面文档,且配备技能的小模型可与未配备技能的大模型相媲美。
agent skills benchmarking procedural knowledge tool use skill evaluation
论文核心围绕Agent技能的评估,包括预定义技能和自动生成技能的效果对比。
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
Renjun Xu, Yang Yan
浙江大学
10/10 2026-02-12 cs.MA PDF
从单一语言模型向模块化、具备技能的Agent转变,标志着大语言模型(LLMs)在实际部署中的重要转变。通过可组合的指令、代码和资源包,Agent能够在无需重新训练的情况下动态扩展能力。本文系统梳理了Agent技能领域的最新进展,涵盖四个维度:(i) 架构基础,包括SKILL$.$md规范、渐进式上下文加载以及技能与MCP的互补作用;(ii) 技能获取,涉及基于技能库的强化学习、自主技能发现(SEAgent)和合成技能生成;(iii) 大规模部署,包括计算机使用代理(CUA)堆栈、GUI接地技术进步以及OSWorld和SWE-bench基准测试进展;(iv) 安全性,提出Skill Trust和生命周期治理框架以应对社区贡献技能中的漏洞问题。文章识别出七个开放挑战,并提出了构建可信、自我改进技能生态系统的研究议程。
agent skills skill acquisition security framework modular agents MCP integration
论文聚焦于Agent技能的架构、获取、安全及未来发展,直接对应skills主题。
Code
CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs
Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully
Department of Computing, Imperial College London
10/10 2026-02-10 cs.AI PDF
开发能够开放性地发现和学习新技能的智能体是人工智能领域的一大挑战。尽管强化学习为训练智能体掌握复杂技能提供了强大框架,但通常依赖人工设计的奖励函数,这在开放性技能发现中不可行。本文提出CODE-SHARP框架,利用基础模型(FM)自动扩展和优化分层技能库,结构为可执行奖励函数的有向图。实验表明,仅通过发现的SHARP技能生成的奖励训练的目标条件智能体,能够在Craftax环境中解决越来越复杂的长期目标任务。当由基于FM的高层规划器组合时,所发现的技能使单一目标条件智能体能够完成复杂任务,平均性能超过预训练智能体和任务特定专家策略134%以上。
skill discovery reward design foundation models reinforcement learning hierarchical planning
论文核心聚焦于技能的开放发现与进化,提出CODE-SHARP框架用于自动化设计奖励函数以学习新技能。
Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web
Linxi Jiang, Rui Xi, Zhijie Liu, Shuo Chen, Zhiqiang Lin et al.
The Ohio State University University of British Columbia Microsoft Research
9/10 2026-02-19 cs.AI PDF
随着网络从人类浏览的媒介转变为软件代理代表用户行动的环境,大型语言模型(LLMs)的进步使得自然语言成为目标导向任务的实用接口。然而,当前大多数网络代理仍依赖低级操作如点击和键盘输入,这些操作脆弱、低效且难以验证。本文提出一种名为Web Verbs的语义层,通过统一接口暴露网站功能,无论其是通过API还是客户端工作流实现。这些动词作为稳定且可组合的单元,使代理能够发现、选择并合成简洁的程序。该方法统一了基于API和浏览器的范式,使LLMs能够生成可靠且可审计的工作流程,并通过预条件、后条件、策略标签和日志支持提高可靠性、效率和可验证性。本文展示了概念验证实现及代表性案例研究,并提出了标准化路线图。
web agents task composition semantic layer function abstraction agent skills
论文聚焦于Agent在Web环境中的任务执行,提出Web Verbs作为技能抽象,用于提升任务规划与执行的可靠性与效率。
Code
OpenSage: Self-programming Agent Generation Engine
Hongwei Li, Zhun Wang, Qinrun Dai, Yuzhou Nie, Jinjun Peng et al.
UC Santa Barbara University of Colorado Boulder University of California, Berkeley
9/10 2026-02-18 cs.AI PDF
代理开发工具包(ADKs)为构建代理提供了有效的平台和工具,其设计对所构建代理的性能至关重要,尤其是代理拓扑、工具和记忆的功能。然而,当前的ADKs要么缺乏足够的功能支持,要么依赖人工手动设计这些组件,限制了代理的通用性和整体性能。本文提出OpenSage,这是首个使LLMs能够自动创建具有自生成拓扑和工具集的代理,并提供全面且结构化的记忆支持的ADK。OpenSage为代理提供了创建和管理自身子代理和工具包的有效功能,还具备基于图的分层记忆系统以实现高效管理,并针对软件工程任务定制了专用工具包。在三个最先进的基准测试中进行的广泛实验表明,OpenSage优于现有的ADKs。我们还进行了严格的消融研究,以验证每个组件设计的有效性。我们认为,OpenSage可以为下一代代理开发铺平道路,将重点从以人为中心的范式转向以AI为中心的范式。
agent development toolkits self-programming software engineering
论文重点研究了Agent的自动生成与工具集设计,属于技能学习和工具使用的核心内容。
Hybrid-Gym: Training Coding Agents to Generalize Across Tasks
Yiqing Xie, Emmy Liu, Gaokai Zhang, Nachiket Kotalwar, Shubham Gandhi et al.
Carnegie Mellon University
9/10 2026-02-18 cs.SE PDF
在评估编码代理的质量时,现有基准主要关注解决GitHub上的单一问题,如SWE-Bench。然而,在实际应用中,这些代理需要处理更复杂多样的任务,涉及代码库探索、软件测试和架构设计等技能。本文通过分解轨迹为细粒度组件,识别出跨任务的可迁移技能,并提出辅助训练任务的设计原则。基于这些原则,我们构建了一个名为Hybrid-Gym的训练环境,包含一系列可扩展的合成任务,如函数定位和依赖搜索。实验表明,基于合成任务训练的代理能够有效泛化到未见过的真实任务,显著提升了多个基准测试的表现。此外,Hybrid-Gym还能增强下游任务的数据集性能。
技能学习 编码代理 任务泛化 合成任务 训练环境
论文聚焦于训练编码代理以跨任务泛化,强调技能学习与合成任务设计,直接关联到Agent的工具使用和技能学习。
Code
Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments
Yangjie Xu, Lujun Li, Lama Sleem, Niccolo Gentile, Yewei Song et al.
University of Luxembourg Princeton University Université Paris-Saclay
9/10 2026-02-18 cs.AI PDF
Agent技能框架目前已由GitHub Copilot、LangChain和OpenAI等主流平台广泛支持,在提升上下文工程、减少幻觉和提高任务准确性方面表现优异。本文研究该框架是否对小型语言模型(SLMs)具有类似优势,尤其关注工业场景中因数据安全和预算限制而难以依赖公共API的情况。研究引入了Agent技能过程的数学定义,并通过多个使用案例系统评估了不同规模的语言模型。结果表明,微型模型在技能选择上存在困难,而中等规模的SLMs(约12B-30B参数)能显著受益于Agent技能方法;80B参数的代码专用模型则表现出与封闭源基线相当的性能,同时提升了GPU效率。这些发现为Agent技能框架的能力与限制提供了全面且细致的描述,并为在以SLM为中心的环境中有效部署Agent技能提供了实用见解。
Agent Skills Small Language Models Industrial Applications Task Accuracy Context Engineering
论文聚焦于Agent Skill框架,探讨其在小语言模型中的应用与效果,直接涉及技能学习与工具调用的核心内容。
Code
Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling
Jeffrey T. H. Wong, Zixi Zhang, Junyi Liu, Yiren Zhao
Imperial College London, Microsoft Research
9/10 2026-02-18 cs.CL PDF
现有的多智能体系统(MAS)通常依赖静态、同质化的模型配置,限制了其利用不同微调模型独特优势的能力。为解决这一问题,本文提出了一种名为Team-of-Thoughts的新MAS架构,通过协调器-工具范式利用异构智能体的互补能力。该框架引入了两个关键机制以优化性能:(1) 协调器校准方案,用于识别具有更强协作能力的模型;(2) 自我评估协议,使工具智能体能够根据自身领域专长进行自我分析,以应对微调后技能的差异。在推理过程中,协调器根据这些能力档案动态激活最合适的工具智能体。实验结果表明,在五个推理和代码生成基准测试中,Team-of-Thoughts始终表现出更优的任务性能。特别是在AIME24和LiveCodeBench上,该方法分别达到了96.67%和72.53%的准确率,显著优于同质化角色扮演基线方法(80%和65.93%)。
多智能体系统 工具调用 技能协调 异构模型 动态规划
论文聚焦于异构代理的技能协调与工具调用,直接涉及Agent的技能学习与工具使用机制。
TabAgent: A Framework for Replacing Agentic Generative Components with Tabular-Textual Classifiers
Ido Levy, Eilam Shapira, Yinon Goldshtein, Avi Yaeli, Nir Mashkif et al.
IBM Research, Haifa, Israel
9/10 2026-02-18 cs.CL PDF
代理系统是一种能够自主执行多步骤工作流以实现复杂目标的人工智能架构,通常通过重复调用大型语言模型(LLM)来完成封闭集决策任务,如路由、筛选、门控和验证。然而,这种设计由于累积延迟和令牌使用量导致部署缓慢且成本高昂。本文提出TabAgent框架,旨在通过在执行轨迹上训练的紧凑型文本-表格分类器,替代封闭集选择任务中的生成决策组件。TabAgent包含三个主要部分:从轨迹中提取结构化模式、状态和依赖特征(TabSchema),通过模式对齐的合成监督增强覆盖率(TabSynth),以及使用轻量级分类器对候选方案进行评分(TabHead)。在长期AppWorld基准测试中,TabAgent在保持任务成功率的同时消除了筛选阶段的LLM调用,将延迟降低了约95%,推理成本减少了85%-91%。此外,TabAgent还可推广到其他代理决策模块,为生产级代理架构中生成瓶颈的判别式替代提供了一种范式。
Agent 技能学习 分类器优化 LLM替代 任务规划
论文聚焦于用分类器替代LLM的生成组件,优化Agent技能执行效率,属于技能学习与工具调用的核心研究。
Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents
Yun-Shiuan Chuang, Chaitanya Kulkarni, Alec Chiu, Avinash Thangali, Zijie Pan et al.
PayPal AI
9/10 2026-02-18 cs.AI PDF
交互式大型语言模型(LLM)代理通过多轮对话和多步骤工具调用在生产环境中日益普及。这些代理的基准测试必须能够可靠地比较模型并生成策略内训练数据。现有的代理基准测试(如tau-bench、AppWorld等)依赖于完全确定性的后端系统,但构建和迭代成本较高。本文提出了一种基于代理状态的评估框架,该框架由LLM驱动,能够在不依赖确定性数据库的情况下保持最终状态评估。具体而言,一个场景定义了用户目标、用户/系统事实、预期最终状态及预期代理行为,LLM状态跟踪器从完整交互轨迹中推断出结构化代理状态。LLM评估者随后根据场景约束验证目标完成情况并检测工具或用户幻觉。实证研究表明,该基准测试能稳定区分不同模型家族及推理努力程度,并且其策略内外的模拟提供了对未见场景的监督。通过仔细设计场景,可以实现接近零的模拟器幻觉率,如消融研究所示。该框架还支持针对用户人设的敏感性分析。人类与LLM评估者的一致性超过90%,表明自动化评估具有可靠性。总体而言,基于代理状态的评估为工业级LLM代理提供了一种实用且可扩展的替代方案。
tool calling agent evaluation LLM benchmarking proxy state automated verification
论文聚焦于多步骤工具调用的LLM代理评估,直接涉及技能学习与工具使用的核心机制。
From Tool Orchestration to Code Execution: A Study of MCP Design Choices
Yuval Felendler, Parth A. Gandhi, Idan Habler, Yuval Elovici, Asaf Shabtai
本古里安大学内盖夫分校
9/10 2026-02-17 cs.CR PDF
模型上下文协议(MCPs)为代理系统提供了一个统一平台,用于在异构执行环境中发现、选择和编排工具。随着MCP系统扩展至更大的工具目录和多个并发连接的MCP服务器,传统的逐个工具调用方式增加了协调开销并限制了广泛上下文操作的支持。为此,近期的MCP设计引入了代码执行作为核心功能,称为代码执行MCP(CE-MCP),使代理能够将复杂的流程(如SQL查询、文件分析和多步骤数据转换)整合为一个程序,在隔离的运行时环境中执行。本文形式化了上下文耦合(传统)与上下文解耦(CE-MCP)模型之间的架构区别,分析其可扩展性权衡。通过MCP-Bench框架在10个代表性服务器上进行实证评估,任务行为、工具使用模式、执行延迟和协议效率随连接MCP服务器和可用工具数量的增加而变化。结果表明,虽然CE-MCP显著减少了令牌使用和执行延迟,但也引入了更广泛的攻击面。我们通过应用MAESTRO框架识别出五个执行阶段中的十六类攻击,并提出了一种分层防御架构,包括容器沙箱和语义门控。
tool orchestration code execution security agent systems scalability
论文聚焦于Agent系统中工具的发现、选择与协调,特别是通过代码执行提升技能处理能力,属于技能学习的核心研究。
GLM-5: from Vibe Coding to Agentic Engineering
GLM-5 Team, :, Aohan Zeng, Xin Lv, Zhenyu Hou et al.
智谱AI 清华大学
9/10 2026-02-17 cs.LG PDF
本文提出了GLM-5,一种下一代基础模型,旨在将氛围编码范式转变为智能体工程。基于其前身的智能体、推理和编码(ARC)能力,GLM-5采用DSA方法显著降低训练和推理成本,同时保持长上下文保真度。为推进模型对齐与自主性,我们实现了一种新的异步强化学习基础设施,通过解耦生成与训练大幅提高后训练效率。此外,我们提出新颖的异步智能体RL算法,进一步提升RL质量,使模型能更有效地从复杂、长时程交互中学习。通过这些创新,GLM-5在主要开放基准测试中达到最先进水平。最关键的是,GLM-5在现实世界编程任务中表现出前所未有的能力,在端到端软件工程挑战中超越了之前的基线。
强化学习 异步训练 智能体工程 代码生成 软件工程
论文重点介绍了GLM-5在自主编程和工具使用方面的能力提升,属于技能学习的核心研究。
Code
Overthinking Loops in Agents: A Structural Risk via MCP Tools
Yohan Lee, Jisoo Jang, Seoyeon Choi, Sangyeop Kim, Seungtaek Choi
延世大学 韩国外国语大学语言与AI系,外语研究所以及外语研究所(HUFPS)
9/10 2026-02-16 cs.CL PDF
随着基于文本可见元数据(如工具名称、描述和返回消息)选择和链接第三方工具的工具使用LLM代理日益增多,本文指出这种便利性带来了供应链攻击的风险。恶意的MCP工具服务器可以与正常工具一同注册,并诱导代理进入过度思考循环,其中单独看似简单或合理的工具调用组合成循环轨迹,导致端到端的token数量和延迟显著增加,而单一步骤看起来并无异常。我们将其形式化为一种结构性的过度思考攻击,区别于单纯的token级冗余。我们在三个服务器上实现了14个恶意工具,触发重复、强制优化和分心等行为。在异构注册表和多个具备工具能力的模型中,该攻击导致严重的资源放大(高达142.4倍的token数量),并可能降低任务效果。最后发现,解码阶段的简洁性控制无法可靠地防止循环的产生,表明防御应关注工具调用结构而非仅限于token本身。
tool-use security attack agent LLM
论文聚焦于LLM代理使用工具时的安全风险,特别是恶意工具引发的循环问题,属于技能学习中的工具调用与安全机制。
Code
TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations
Guy Freund, Tom Jurgenson, Matan Sudry, Erez Karpas
Reichman University
9/10 2026-02-16 cs.RO PDF
机器人打结是一项基础性挑战,因其涉及可变形物体的复杂交互和严格的拓扑约束。本文提出TWISTED-RL框架,在无需人类演示的情况下改进了先前最先进的打结方法(TWISTED)。该方法将单个打结问题智能地分解为多个子问题,并由专门的代理分别处理。本文方法用基于抽象拓扑动作的多步强化学习策略替代了TWISTED中通过监督学习获得的单步逆模型,从而实现了更精细的拓扑状态转换,避免了代价高昂且低效的数据收集协议,提升了在不同打结配置中的泛化能力。实验结果表明,TWISTED-RL能够解决之前无法完成的高复杂度打结任务,包括常用的八字结和死结。成功率的提升和规划时间的减少确立了TWISTED-RL作为无需人类演示的机器人打结新标杆。
强化学习 技能学习 机器人控制 拓扑规划
论文聚焦于Agent的技能学习,通过强化学习实现复杂任务(打结)的分解与执行。
When OpenClaw AI Agents Teach Each Other: Peer Learning Patterns in the Moltbook Community
Eason Chen, Ce Guan, Ahmed Elshafiey, Zhonghao Zhao, Joshua Zekeri et al.
卡内基梅隆大学 GiveRep Labs Sui Foundation
9/10 2026-02-16 cs.HC PDF
同伴学习是教育实践的基础,近年来出现了一种新现象:AI代理形成社区,互相教授技能、分享发现并协作构建知识。本文对Moltbook这一大规模社区进行了教育数据挖掘分析,该社区有超过240万个AI代理参与同伴学习,发布教程、回答问题并分享新获得的技能。通过分析28,683条帖子(过滤掉自动垃圾信息)和138个评论线程,我们发现了真实的同伴学习行为:代理教授他们构建的技能(某技能教程获得7.4万条评论),报告发现并参与协作解决问题。定性评论分析揭示了同伴回应模式的分类:验证(22%)、知识扩展(18%)、应用(12%)和元认知反思(7%),代理在多种语言中相互构建框架。我们描述了AI同伴学习与人类同伴学习的不同之处,并提出了六项教育AI的设计原则。本研究首次对AI代理间的同伴学习进行了实证刻画,为教育环境中日益增多的AI学习提供了理解基础。
AI代理 同伴学习 技能传授 教育数据挖掘 多语言学习
论文聚焦AI代理之间的技能传授与学习,涉及工具使用、知识共享和技能构建,属于技能学习的核心研究。
OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction
Skyler Hallinan, Thejas Venkatesh, Xiang Ren, Sai Praneeth Karimireddy, Ashwin Paranjape et al.
南加州大学
9/10 2026-02-16 cs.CL PDF
工具调用对于大型语言模型(LLM)代理完成现实任务至关重要。尽管现有基准假设工具是简单且完美记录的,但现实中的工具(如通用“搜索”API)通常是不透明的,缺乏明确的最佳实践或失败模式。本文提出OpaqueToolsBench,一个包含三个任务导向环境的基准:通用函数调用、交互式棋盘游戏和长期轨迹代理搜索。每个环境中提供的工具描述不足,模型必须有效学习以完成任务。实验结果表明,现有自动记录工具的方法在面对不透明工具时成本高且不可靠。为此,我们提出ToolObserver框架,通过观察工具调用轨迹的执行反馈来迭代优化工具文档。该方法在多个数据集上优于现有方法,即使在较难设置中也表现优异,并且在测试时工具探索场景中效率更高,总消耗的token数量仅为最佳基线的3.5-7.5倍。
tool calling agent learning documentation refinement opaque tools skill acquisition
论文聚焦于LLM代理在使用不透明工具时的技能学习与改进,核心研究内容为工具调用和文档优化。
Code
Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems
Pramit Saha, Joshua Strong, Mohammad Alsharid, Divyanshu Mishra, J. Alison Noble
英国牛津大学工程科学系,牛津大学,英国
9/10 2026-02-16 cs.LG PDF
任务专用模型是智能医疗系统的核心,使代理能够回答包括疾病诊断、定位和报告生成在内的临床问题。然而,对于给定任务,通常不存在单一的最佳模型。实际上,每个任务更适合由多个竞争性专家模型处理,不同模型在不同数据样本上表现优异。因此,代理必须从异构的工具候选池中可靠地选择合适的专家模型。为此,我们引入了ToolSelect,通过最小化采样专家工具候选的群体风险,使用任务条件选择损失的一致替代来自适应学习工具选择。具体而言,我们提出了一种基于注意力神经过程的选择器,该选择器根据查询和每种模型的行为摘要来选择专家模型。鉴于缺乏已有的测试平台,我们首次引入了一个智能胸部X光环境,并配备了多种任务专用模型(17种疾病检测、19种报告生成、6种视觉定位和13种VQA),并开发了包含1448个查询的ToolSelectBench基准。实验结果表明,ToolSelect在四个不同的任务类别中始终优于10种最先进的方法。
工具选择 智能医疗系统 任务专用模型 注意力神经过程
论文聚焦于Agent在医疗系统中选择任务专用模型作为工具的机制,属于技能学习中的工具选择与调用。
Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows
Bardia Mohammadi, Nearchos Potamitis, Lars Klein, Akhil Arora, Laurent Bindschaedler
MPI-SWS EPFL
9/10 2026-02-16 cs.LG PDF
随着LLM代理越来越多地作用于外部系统,工具调用的效果通常是即时的。然而,在发生故障、推测或竞争时,丢失的分支可能导致意外的副作用且无法安全回滚。本文提出Atomix,一个提供进度感知事务语义的运行时系统,用于代理的工具调用。Atomix为每个调用标记一个时间戳,跟踪每个资源的前沿状态,并仅在进度谓词表明安全时提交;可缓冲的效果可以延迟,而外部效果则被跟踪并在中止时进行补偿。通过注入故障的真实工作负载测试表明,事务重试提高了任务成功率,而前沿门控提交在推测和竞争下增强了隔离性。
事务处理 工具调用 智能体系统 容错机制
论文聚焦于Agent工具调用的事务性机制,直接涉及技能学习中的工具使用与执行可靠性。
Code
Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows
Edwin Chen, Zulekha Bibi
Legacy AI LLC
9/10 2026-02-15 cs.LG PDF
本文提出了一种名为Machine Learning as a Tool(MLAT)的设计模式,该模式将预训练的统计机器学习模型作为可调用工具集成到大型语言模型(LLM)代理的工作流程中。这使得协调代理能够在需要时调用定量预测并根据上下文对其输出进行推理。与传统将机器学习推断视为静态预处理步骤的流水线不同,MLAT将模型作为与网络搜索、数据库查询和API同等重要的工具,使LLM能够基于对话上下文决定何时以及如何使用它。为验证MLAT,我们提出了PitchCraft系统,该系统通过ML预测定价将发现电话录音转换为专业提案。系统使用两个代理:一个用于通过并行工具调用收集潜在客户信息,另一个用于调用XGBoost定价模型并生成完整提案。定价模型在70个结合真实数据和人工验证合成数据的示例上训练,在保留数据上的R²值为0.807,平均绝对误差为3688美元。该系统将提案生成时间从数小时缩短至不到10分钟。
LLM代理 工具调用 机器学习集成 技能学习 任务自动化
论文核心研究了将机器学习模型作为可调用工具集成到LLM代理工作流中的设计模式,属于技能学习与工具使用范畴。
Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay
Gabriel Romio, Mateus Begnini Melchiades, Bruno Castro da Silva, Gabriel de Oliveira Ramos
Universidade do Vale do Rio dos Sinos, São Leopoldo, RS, Brazil University of Massachusetts, Amherst, Amherst, MA, USA
9/10 2026-02-14 cs.AI PDF
分层强化学习(HRL)框架如Option-Critic(OC)和Multi-updates Option Critic(MOC)在学习可重用选项方面取得了显著进展。然而,这些方法在具有稀疏奖励的多目标环境中表现不佳,因为动作需要与时间上遥远的结果相关联。为了解决这一限制,本文首先提出MOC-HER,将Hindsight Experience Replay(HER)机制整合到MOC框架中。通过从实现结果中重新标记目标,MOC-HER可以解决原始MOC无法处理的稀疏奖励环境。然而,这种方法对于依赖物体到达目标而非代理直接交互的任务仍不充分。为此,本文引入了双目标Hindsight Experience Replay(2HER),创建两组虚拟目标。除了基于物体最终状态重新标记目标(标准HER)外,2HER还从代理效应器位置生成目标,从而奖励代理与物体的交互以及任务完成。实验结果表明,在机器人操作环境中,MOC-2HER的成功率高达90%,而MOC和MOC-HER均低于11%。这些结果突显了双目标重新标记策略在稀疏奖励、多目标任务中的有效性。
强化学习 稀疏奖励 选项学习 HER 机器人操作
论文聚焦于强化学习中技能学习(options)在稀疏奖励环境下的改进,直接涉及Agent的技能学习与任务完成能力。
AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning
Siqian Tong, Xuan Li, Yiwei Wang, Baolong Bi, Yujun Cai et al.
中国科学院声学研究所 加州大学圣迭戈分校电子与计算机工程系
9/10 2026-02-14 cs.SD PDF
大型音频语言模型(LALMs)在感知任务上表现出色,但在需要精确声学测量的复杂推理任务中表现不足。尽管外部工具可以提取如精确节拍或音高的细粒度特征,但有效整合这些工具仍具挑战性:盲目使用所有工具会导致信息过载,而基于提示的工具选择方法无法评估其上下文相关效用。为此,本文提出AuTAgent(音频工具代理),一种通过强化学习框架学习何时以及调用哪些工具的方法。该框架采用稀疏反馈训练策略和新颖的差分奖励机制,使代理能够过滤无关工具,并仅在能带来性能提升时调用外部工具。实验结果表明,AuTAgent通过提供可验证的声学证据,弥补了LALMs的表示瓶颈,在MMAU Test-mini和MMAR基准测试中分别提升了4.20%/6.20%和9.80%/8.00%的准确率。此外,进一步实验还展示了其出色的迁移能力。本文突出了外部工具在增强音频模型推理能力中的补充作用。
工具选择 强化学习 音频推理 技能学习
论文核心研究Agent如何选择和调用外部工具进行音频推理,属于技能学习中的工具使用与选择。
Code
HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating
Weibin Liao, Jian-guang Lou, Haoyi Xiong
北京大学 微软亚洲研究院
9/10 2026-02-14 cs.AI PDF
尽管智能体AI系统依赖于大语言模型(LLM)将用户意图转化为结构化的函数调用,但这一过程存在大量计算冗余,导致推理延迟高,阻碍了实时应用。本文识别并解决了三个关键冗余问题:(1)每次请求都重复处理大量函数描述;(2)使用大型、缓慢模型生成整个通常可预测的token序列;(3)重复生成固定的、模板化的参数语法。本文提出了一种名为HyFunc的新框架,系统性地消除了这些低效问题。HyFunc采用混合模型级联方法,其中大型模型将用户意图提炼为一个“软token”,该token引导轻量级检索器选择相关函数,并指导经过前缀微调的小型模型生成最终调用,从而避免大型模型进行冗余上下文处理和完整序列生成。为了消除语法冗余,我们的“动态模板”技术在扩展的vLLM引擎中实时注入模板化参数语法。为了避免泛化能力的潜在限制,我们在未见过的基准数据集BFCL上评估了HyFunc。实验结果表明,HyFunc在效率和性能之间取得了良好的平衡,推理延迟仅为0.828秒,优于所有基线模型,性能达到80.1%,超越了所有参数规模相当的模型。这些结果表明,HyFunc为智能体AI提供了一种更高效的范式。
函数调用 混合模型 动态模板 智能体AI 推理效率
论文聚焦于Agent中函数调用的效率优化,属于技能学习中的工具使用与调用机制。
Code
Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents
Xu Li, Simon Yu, Minzhou Pan, Yiyou Sun, Bo Li et al.
Northeastern University
9/10 2026-02-13 cs.CR PDF
基于LLM的代理在能力上日益增强,但其安全性却相对滞后,这导致了代理能做与应做的事情之间的差距。随着代理参与多轮交互并使用多样化的工具,新的风险被现有基准所忽视。为系统地将安全性测试扩展到多轮、工具现实的场景中,本文提出了一种原理性的分类法,将单轮有害任务转化为多轮攻击序列,并构建了MT-AgentRisk(多轮代理风险基准),这是首个用于评估多轮工具使用代理安全性的基准。实验表明,在多轮设置下,攻击成功率(ASR)平均增加了16%。为弥补这一差距,本文提出了ToolShield,一种无需训练、与工具无关、自我探索的防御方法:当遇到新工具时,代理自主生成测试用例,执行以观察下游影响,并提炼安全性经验用于部署。实验表明,ToolShield在多轮交互中平均可将ASR降低30%。
tool-use agent safety multi-turn interaction defense mechanism
论文聚焦于工具使用代理的安全性,涉及工具调用、攻击序列构建及防御机制,直接关联技能学习与工具使用。
Code
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha et al.
Fudan NLP Group
9/10 2026-02-13 cs.CL PDF
科学推理本质上需要整合复杂的工具包以应对特定领域的知识。然而,当前基准测试大多忽视了代理在严格工作流中协调工具的能力。为弥补这一不足,我们引入了SciAgentGym,一个可扩展的交互环境,包含1,780个跨四个自然科学领域的特定工具,并配有强大的执行基础设施。此外,我们提出了SciAgentBench,一套分层评估套件,用于从基本操作到长期工作流的压力测试。我们的评估发现了一个关键瓶颈:最先进的模型在复杂科学工具使用上表现不佳。即使对于领先的GPT-5模型,随着交互时间延长,成功率也显著下降,主要原因是多步骤工作流执行失败。为此,我们提出SciForge,一种数据合成方法,将工具动作空间建模为依赖图以生成逻辑感知的训练轨迹。通过在这些轨迹上进行微调,我们的SciAgent-8B在性能上超越了显著更大的Qwen3-VL-235B-Instruct模型,并表现出科学工具使用能力的跨领域迁移潜力。这些结果突显了下一代自主科学代理的广阔前景。
tool-use scientific reasoning agent benchmarking skill learning
论文聚焦于LLM Agent在科学领域中多步骤工具使用能力的评估与提升,直接涉及技能学习中的工具调用与执行。
Code
CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use
Zhen Zhang, Kaiqiang Song, Xun Wang, Yebowen Hu, Weixiang Yan et al.
University of California, Santa Barbara University of Illinois Chicago
9/10 2026-02-12 cs.AI PDF
AI代理越来越多地通过推理多轮用户交互并调用外部工具来解决现实任务。然而,在此类场景中应用强化学习仍然具有挑战性:实际目标通常缺乏可验证的奖励,而是强调开放行为;此外,针对多轮、多步骤代理工具使用的强化学习仍处于探索阶段;构建和维护可执行工具环境的成本较高,限制了规模和覆盖范围。本文提出CM2,一种用检查表奖励替代可验证结果奖励的强化学习框架。CM2将每一轮预期行为分解为细粒度的二元标准,并结合显式证据和结构化元数据,将开放判断转化为更稳定的分类决策。为了平衡稳定性和信息量,该方法采用稀疏奖励分配但密集评估标准的策略。训练在可扩展的LLM模拟工具环境中进行,避免了大规模工具集的高工程成本。实验表明,CM2在多个基准测试中均优于监督微调方法,且效果可与同类开源基线模型相媲美甚至超越。CM2为优化多轮、多步骤工具使用代理提供了一种无需依赖可验证奖励的可扩展方案。
强化学习 工具使用 代理系统 检查表奖励 多步骤任务
论文聚焦于Agent的多步骤工具使用,提出基于检查表奖励的强化学习框架,直接关联技能学习与工具调用。
Code
Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation
Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson
Minerva University, San Francisco, California, USA
9/10 2026-02-11 cs.SE PDF
本文提出了一种名为Agent-Diff的新颖基准框架,用于评估代理式大语言模型(LLMs)在通过外部API执行现实任务中的表现。由于模型、外部工具访问、提示结构和代理框架的差异,代理式LLM的表现各不相同。基准测试必须在控制软件环境变化的沙箱方法与更生态有效的方法之间做出根本性权衡。Agent-Diff通过提供对真实API接口的访问并同时对调用、处理和评估环境进行沙箱化,结合了这两种方法的优点。该方法依赖于两个关键创新:一种新的状态差异合同,将过程与结果分离;以及一个标准化的脚本层,所有模型均可使用其对外部API执行代码。通过Agent-Diff框架,我们为九种LLM提供了224个任务的企业软件工作流程基准,并通过消融实验评估了API文档访问对基准性能的影响。
API调用 代理评估 代码执行 基准测试 技能学习
论文聚焦于Agent通过API调用执行任务,涉及工具使用和技能评估,属于技能学习的核心研究。
Code
AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
Liyang Chen, Hongkai Chen, Yujun Cai, Sifan Li, Qingwen Ye et al.
University of California, Los Angeles vivo Mobile Communication Co., Ltd. The University of Queensland The University of California, Merced
9/10 2026-02-11 cs.SD PDF
大型音频语言模型(LALMs)在音频理解和推理方面表现出色,但其在细粒度听觉感知任务中的表现仍不稳定。现有方法主要依赖大量数据训练以内化感知能力。本文提出AudioRouter,一种基于强化学习的框架,使LALMs能够通过学习何时以及如何使用外部音频工具来提升音频理解能力。该框架将工具使用建模为显式的决策问题,并在保持底层推理模型冻结的情况下优化轻量级路由策略。实验结果表明,AudioRouter在标准音频理解基准测试中取得了显著改进,且相比传统训练范式,其学习工具使用的训练数据需求减少了高达600倍。这些发现表明,学习有效的工具使用为LALMs内化感知能力提供了一种数据高效且可扩展的替代方案。
音频理解 强化学习 工具使用 数据效率 技能学习
论文核心围绕Agent使用外部音频工具的技能学习,通过强化学习优化工具使用策略。
Code
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol
Flint Xiaofeng Fan, Cheston Tan, Roger Wattenhofer, Yew-Soon Ong
瑞士苏黎世联邦理工学院计算机与数据科学学院
9/10 2026-02-10 cs.AI PDF
随着基于大语言模型(LLM)的AI代理越来越多地依赖外部工具进行高风险决策,一个关键的可靠性问题浮现:错误如何在连续的工具调用中传播?本文首次提出了分析模型上下文协议(MCP)代理中误差累积的理论框架,证明累积失真呈线性增长,且高概率偏差受$O( ext{sqrt}(T))$限制。该集中性质确保了系统行为的可预测性,并排除了指数级失败模式。我们开发了一种结合离散事实匹配和连续语义相似性的混合失真度量,并通过顺序工具交互建立了误差传播的鞅集中界。实验结果表明,Qwen2-7B、Llama-3-8B和Mistral-7B等模型验证了理论预测,经验失真符合线性趋势,偏差始终在$O( ext{sqrt}(T))$范围内。主要发现包括:语义加权可减少80%的失真,每9步周期性重新校准即可实现误差控制。我们将这些集中保证转化为可信代理系统的可操作部署原则。
工具调用 误差传播 语义相似性 模型上下文协议 鞅分析
论文聚焦于LLM Agent在使用工具时的信息保真问题,直接涉及工具调用与误差传播机制,属于技能学习中的关键环节。
RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments
Dharmendra Sharma, Archit Sharma, John Rebeiro, Vaibhav Kesharwani, Peeyush Thakur et al.
Narendra Kumar Dhar, and Laxmikant Bhehera
9/10 2026-02-10 cs.RO PDF
在长且未剪辑的视频中对细粒度子任务进行时间定位和分类,对于安全的人机协作至关重要。与通用活动识别不同,协作操作需要可以直接由机器人执行的子任务标签。本文提出RoboSubtaskNet,一种多阶段的人到机器人的子任务分割框架,结合注意力增强的I3D特征(RGB加光流)与改进的MS-TCN网络,采用斐波那契扩张计划以更好地捕捉短时域转换(如抓取-拾取-放置)。网络通过包含交叉熵和时间正则化项(截断MSE和转换感知项)的复合目标函数进行训练,以减少过度分割并鼓励有效的子任务进展。为弥合视觉基准与控制之间的差距,我们引入了RoboSubtask数据集,包含医疗和工业演示的子任务级标注,并设计用于确定性映射到机械臂原语。实验表明,RoboSubtaskNet在GTEA和RoboSubtask基准测试中优于MS-TCN和MS-TCN++,并在Breakfast基准上保持竞争力。此外,该方法在7自由度Kinova Gen3机械臂上的端到端行为验证中表现出可靠的物理试验性能。
机器人技能转移 子任务分割 视觉-控制映射 机械臂控制 深度学习
论文聚焦于机器人技能转移,涉及子任务分割与可执行标签,直接关联Agent的技能学习与工具使用。
AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis
Zexu Sun, Bokai Ji, Hengyi Cai, Shuaiqiang Wang, Lei Wang et al.
AMU, Baidu Inc. School of Computer Science and Technology, Xidian University Singapore Management University Gaoling School of Artificial Intelligence, Renmin University of China
9/10 2026-02-10 cs.CL PDF
大型语言模型代理在通过工具解决现实问题方面展现出潜力,但通用智能受到高质量、长时域数据稀缺的限制。现有方法收集受隐私约束的API日志或生成缺乏多样性的脚本交互,难以生成扩展能力所需的数据。本文提出AgentSkiller,一个全自动框架,用于合成跨真实且语义关联领域的多轮交互数据。该框架采用基于DAG的架构,通过显式状态转移确保确定性和可恢复性。流程构建领域本体和以用户为中心的实体图,通过服务蓝图定义工具接口,为模型上下文协议服务器提供支持,并使用一致数据库和严格领域策略填充环境。跨领域融合机制连接服务以模拟复杂任务。最后,流程通过验证解决方案路径、执行验证过滤并使用基于角色的模拟器生成查询,实现自动部署。这生成了具有明确状态变化的可靠环境。实验表明,使用此数据集训练的模型在函数调用方面显著优于基线,尤其在大参数规模下效果更佳。
Agent技能学习 跨领域数据合成 工具接口设计 自动化环境生成
论文聚焦于通过跨领域数据合成提升Agent的技能学习能力,核心方法围绕工具使用和任务规划展开。
Code
FAMOSE: A ReAct Approach to Automated Feature Discovery
Keith Burghardt, Jienan Liu, Sadman Sakib, Yuning Hao, Bo Li
Amazon.com, Inc., 410 Terry Ave N, Seattle, WA 98109, United States
8/10 2026-02-19 cs.LG PDF
特征工程仍然是机器学习中的关键瓶颈,尤其对于表格数据而言,从指数级大的特征空间中识别最优特征通常需要大量领域专业知识。为解决这一问题,本文提出FAMOSE(Feature AugMentation and Optimal Selection agEnt),一个利用ReAct范式自主探索、生成和优化特征的新框架,并在代理架构中集成了特征选择与评估工具。据我们所知,FAMOSE是首个将代理ReAct框架应用于自动化特征工程的工作,适用于回归和分类任务。实验表明,FAMOSE在分类任务上达到或接近最先进水平(尤其在样本数超过10K的任务中,ROC-AUC平均提高0.23%),并在回归任务中取得最先进的结果(RMSE平均降低2.0%),且比其他算法更具鲁棒性。我们认为FAMOSE的优异表现源于ReAct允许LLM通过迭代特征发现和评估步骤记录哪些特征有效或无效,类似于少样本提示,从而引导LLM发明更优、更具创新性的特征。我们的工作提供了证据,证明AI代理在需要高度创新性解决方案的问题(如特征工程)中表现出色。
特征工程 ReAct框架 自动化机器学习 代理系统 技能学习
论文提出FAMOSE框架,通过ReAct范式实现特征自动发现与选择,属于Agent技能学习的范畴。
Wink: Recovering from Misbehaviors in Coding Agents
Rahul Nanda, Chandra Maddila, Smriti Jha, Euna Mehnaz Khan, Matteo Paltenghi et al.
Meta Platforms, Inc. New York, NY, USA Bellevue, WA, USA Menlo Park, CA, USA
8/10 2026-02-19 cs.SE PDF
由大型语言模型驱动的自主编码代理在软件行业中被越来越多地用于自动化复杂的工程任务。然而,这些代理容易出现各种不良行为,例如偏离用户指令、陷入重复循环或未能正确使用工具。这些问题会中断开发流程,并通常需要耗费大量资源的人工干预。本文提出了一种能够在大规模上自动从代理不良行为中恢复的系统。我们首先基于生产流量分析引入了一个不良行为分类体系,识别出三种主要类别:规范偏移、推理问题和工具调用失败,这些情况约占所有代理轨迹的30%。为了解决这些问题,我们开发了一个轻量级、异步的自我干预系统Wink。Wink观察代理轨迹并提供针对性的纠正指导,以引导代理回到高效路径。我们在超过10,000条真实世界代理轨迹上评估了该系统,发现其能够成功解决90%需要单次干预的不良行为。此外,在我们的生产环境中进行的实时A/B测试表明,该系统显著减少了工具调用失败、每会话令牌数和每会话工程师干预次数。我们分享了设计和部署该系统的经验,提供了关于构建大规模弹性代理系统的挑战性见解。
Agent 工具调用 自我干预 错误恢复 编码代理
论文聚焦于编码代理工具调用失败问题,提出Wink系统进行干预,属于技能学习与工具使用相关的核心研究。
Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents
Arnold Cartagena, Ariane Teixeira
Independent Researcher
8/10 2026-02-18 cs.AI PDF
随着大型语言模型作为代理越来越多地通过工具调用与外部系统交互,其行为可能带来现实世界的影响。然而,现有的安全性评估主要集中在文本层面的拒绝行为上,未能解决关键问题:抑制有害文本输出是否也能抑制有害动作?本文引入了GAP基准,用于系统性评估文本安全性和工具调用安全性之间的差异。通过对六种前沿模型在六个受监管领域、七种越狱场景、三种系统提示条件和两种提示变体下的测试,生成了17,420个分析数据点。核心发现是文本安全性并不能保证工具调用的安全性,模型可能在拒绝有害请求的同时仍执行禁止操作。系统提示词对工具调用行为有显著影响,而运行时治理合同虽能减少信息泄露,但对防止非法工具调用无明显作用。这些结果表明,仅依赖文本安全性评估不足以衡量代理行为,工具调用安全性需要专门的测量和缓解措施。
tool-call safety agent alignment safety evaluation system prompts
论文聚焦于LLM代理在工具调用中的安全问题,涉及技能执行与行为控制,属于技能学习相关的核心研究。
Code
Beyond Learning: A Training-Free Alternative to Model Adaptation
Namkyung Yoon, Kyeonghyun Yoo, Wooyong Jung, Sanghong Kim, Hwangnam Kim
8/10 2026-02-18 cs.CL PDF
尽管语言模型持续发展,但有时其表现不如早期版本。现有方法资源消耗大,难以快速应对问题。本文假设每个语言模型内部存在适用于特定任务的局部模块,并通过激活分析识别这些模块。随后,将针对特定任务激活的模块移植到目标模型中,从而在不进行额外训练或微调的情况下实现即时且可衡量的功能改进。实验表明,跨代模型间移植激活选择的模块可显著提升性能,最高达到目标基线的两倍,并实现超过100%的差距恢复。此外,在基础模型与其指令调优版本之间进行移植时,也能显著提升较弱模型的表现。研究证明了语言模型中高度本地化模块的能力转移可行性,并提出了模型移植这一新研究方向。
模型移植 模块化 技能学习 语言模型优化
论文提出通过移植内部模块实现模型功能增强,涉及技能模块的识别与应用,属于技能学习范畴。
AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition
Ruipeng Wang, Yuxin Chen, Yukai Wang, Chang Wu, Junfeng Fang et al.
Equal contribution, Meituan, China National University of Singapore, Singapore
8/10 2026-02-11 cs.AI PDF
近年来,大语言模型的进步使得基于LLM的代理在各种基准测试中表现出色。然而,在现实部署中的性能往往与基准测试结果存在差异,尤其是在复杂和不完美的环境中。这种差异主要源于当前训练和评估范式通常基于理想化假设,忽视了现实交互中的随机性和噪声。为弥合这一差距,我们引入了AgentNoiseBench,一个用于系统评估代理模型在噪声环境下的鲁棒性的框架。我们首先对现实场景中的偏差和不确定性进行了深入分析,并将环境噪声分为两种主要类型:用户噪声和工具噪声。基于此分析,我们开发了一个自动化流程,向现有的以代理为中心的基准注入可控噪声,同时保持任务可解性。利用该流程,我们在多种架构和参数规模的模型上进行了广泛评估。结果表明,不同噪声条件下模型性能存在显著变化,突显了当前代理模型对现实环境扰动的敏感性。
tool-use robustness noise-injection benchmarking agent-evaluation
论文聚焦于LLM代理在使用工具时的鲁棒性,涉及噪声环境下的技能表现评估。
Code
Spectral Guardrails for Agents in the Wild: Detecting Tool Use Hallucinations via Attention Topology
Valentin Noël
8/10 2026-02-08 cs.LG PDF
在野外部署自主智能体需要可靠的防护机制以防止工具使用失败。本文提出了一种基于注意力拓扑频谱分析的训练无关防护方法,可作为监督方法的补充。在Llama 3.1 8B模型上,该方法在无需任何标注训练数据的情况下实现了97.7%的召回率(多特征检测)和86.1%的召回率与81.0%的精确率(平衡部署)。研究发现单层频谱特征可作为近乎完美的幻觉检测器,并揭示了幻觉不仅是错误的token,而是模型注意力状态的热力学变化。通过跨模型评估,发现了“喧闹的骗子”现象,表明Llama 3.1 8B的失败具有显著的频谱灾难性特征,而Mistral 7B表现出最佳的区分能力(AUC 0.900)。这些发现确立了频谱分析作为智能体安全的原理性、高效框架。
tool use hallucination detection attention topology spectral analysis agent safety
论文聚焦于Agent工具使用中的幻觉检测,属于技能学习中的工具调用可靠性问题。
MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks
Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson et al.
7/10 2026-02-09 cs.CR PDF
基于大语言模型(LLM)的网络代理正被越来越多地部署以通过直接与网站交互并代表用户执行操作来自动化复杂的在线任务。尽管这些代理具有强大的功能,但其设计使其容易受到嵌入在不可信网页内容中的间接提示注入攻击,从而使攻击者劫持代理行为并违反用户意图。尽管对这一威胁的认识正在增加,但现有的评估方法依赖于固定的攻击模板、手动选择的注入点或范围狭窄的场景,限制了其捕捉实际中真实且自适应攻击的能力。我们提出了MUZZLE,一个用于评估网络代理在面对间接提示注入攻击时安全性的自动化代理框架。MUZZLE利用代理的轨迹自动识别高显著性注入点,并生成上下文感知的恶意指令,以针对机密性、完整性和可用性的违规行为。与以往的方法不同,MUZZLE根据观察到的代理执行轨迹自适应调整攻击策略,并通过失败执行的反馈迭代优化攻击。我们在多样化的网络应用、用户任务和代理配置上评估了MUZZLE,证明其能够在最小人工干预的情况下自动且自适应地评估网络代理的安全性。我们的结果显示,MUZZLE有效地发现了4个网络应用上的37种新攻击,涉及10个违反机密性、可用性或隐私属性的对抗目标。MUZZLE还识别出新的攻击策略,包括2种跨应用的提示注入攻击和一种针对代理定制的钓鱼场景。
网络安全 提示注入攻击 代理系统 自适应攻击 技能学习
论文涉及Agent在面对间接提示注入攻击时的适应性对抗技能,属于技能学习与工具使用相关。
Taming Scylla: Understanding the multi-headed agentic daemon of the coding seas
Micah Villmow
7/10 2026-02-09 cs.SE PDF
基于LLM的工具正在迅速自动化更多的软件开发任务,但目前尚无严谨的方法来评估不同架构选择(如提示、技能、工具和多代理设置)如何实质性地影响能力和成本。本文介绍了Scylla,一个通过结构化消融研究来评估代理编码工具的框架,该框架使用七个测试层级(T0-T6)逐步增加复杂性以隔离直接影响结果的因素。关键指标是“通过成本”(CoP),即获得一个正确解决方案的预期美元成本,直接量化了复杂性与效率之间的权衡。该框架模型无关,适用于任何CLI工具;本文使用Claude Sonnet 4.5进行演示,并利用同一供应商的多个LLM评估者(Opus 4.5、Sonnet 4.5、Haiku 4.5)达成评估共识,评估者通过直接测试、人工设计的LLM评估标准和定性评估对结果进行评分。最终得出一个可复现的框架,量化了代理复杂性与实际结果之间的权衡,表明架构复杂性并不总是能提高质量。
agent tool evaluation cost analysis ablation study LLM benchmarking
论文主要评估不同架构选择对代理工具能力与成本的影响,涉及技能(如工具使用)的效率分析。
Initial Risk Probing and Feasibility Testing of Glow: a Generative AI-Powered Dialectical Behavior Therapy Skills Coach for Substance Use Recovery and HIV Prevention
Liying Wang, Madison Lee, Yunzhang Jiang, Steven Chen, Kewei Sha et al.
University of Washington Tacoma
7/10 2026-02-08 cs.AI PDF
背景:艾滋病病毒(HIV)和物质使用代表了具有共同心理驱动因素(冲动性和适应不良应对机制)的相互作用流行病。辩证行为疗法(DBT)针对这些机制,但面临可扩展性挑战。生成式人工智能(GenAI)为大规模提供个性化DBT指导提供了潜力,但其快速发展已超出安全基础设施。方法:我们开发了Glow,一个基于GenAI的DBT技能教练,为HIV和物质使用风险个体提供链分析和解决方案分析。通过与洛杉矶社区健康组织合作,对6名临床工作人员和28名有实际经验的个体进行了可用性测试。采用“有益、诚实、无害”(HHH)框架,进行用户驱动的对抗性测试,参与者识别目标行为并生成情境真实的潜在风险探测。我们评估了37次风险探测互动中的安全性表现。结果:Glow正确处理了73%的风险探测,但不同代理的表现存在差异。解决方案分析代理正确处理率为90%,而链分析代理仅为44%。安全失败主要集中在鼓励物质使用和正常化有害行为上。链分析代理陷入“共情陷阱”,强化了适应不良的信念。此外,还发现了27例DBT技能误传情况。结论:本研究首次系统评估了GenAI提供的DBT指导在减少HIV和物质使用风险方面的安全性。发现了一些需要缓解的漏洞。HHH框架和用户驱动的对抗性测试为评估GenAI心理健康干预提供了可复制的方法。
生成式AI DBT技能教练 心理健康干预 风险探测 对抗性测试
论文探讨了基于生成式AI的DBT技能教练系统,涉及技能应用与风险评估,属于技能学习相关。
Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents
Zhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu et al.
Singapore Management UniversitySingaporeSingapore Shanghai Jiao Tong UniversityShanghaiChina ByteDanceBeijingChina
7/10 2026-02-08 cs.SE PDF
随着大型语言模型(LLM)代码代理在解决仓库级问题中的应用日益广泛,这些代理通常通过迭代编辑代码、调用工具和验证候选补丁来完成任务。许多高排名代理在SWE-bench排行榜上采用了一种即时编写测试的范式。然而,我们发现GPT-5.2几乎不生成新测试,却仍能实现与顶级代理相当的性能。这引发了一个关键问题:这些测试是否真正提升了问题解决能力,还是仅仅模仿了人类测试实践并消耗了大量交互预算。为揭示代理生成测试的影响,我们对六种最先进的LLM在SWE-bench Verified上的轨迹进行了实证研究。结果显示,尽管测试编写是常见做法,但同一模型中已解决和未解决的任务在测试编写频率上并无显著差异。此外,这些测试通常作为观察性反馈通道,代理更倾向于使用揭示值的打印语句,而非正式的断言检查。基于这些发现,我们通过修改四个代理的提示来增加或减少测试编写,并进行受控实验。结果表明,代理生成测试的数量变化并未显著影响最终结果。综上所述,我们的研究表明,当前的测试编写实践在自主软件工程任务中可能仅提供有限的效用。
软件工程代理 测试生成 LLM评估 任务规划
论文探讨了Agent在软件工程任务中生成测试的技能及其实际效用,涉及工具使用和任务执行策略。
排序:
每页显示:
Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents
Haochen Wang, Yi Wu, Daryl Chang, Li Wei, Lukasz Heldt
Google Inc, Mountain View, California, USA
10/10 2026-02-10 cs.LG PDF
优化大规模机器学习系统(如全球视频平台的推荐模型)需要在庞大的超参数搜索空间中进行导航,并设计复杂的优化器、架构和奖励函数以捕捉用户行为的细微变化。传统方法依赖大量手动迭代测试新假设,本文提出一种自进化系统,利用Google Gemini系列大语言模型(LLMs)在端到端自动化流程中自主生成、训练并部署高性能复杂模型变更。该系统包含一个离线代理(内循环),通过代理指标进行高吞吐量假设生成;以及一个在线代理(外循环),在实时生产环境中验证候选方案是否符合延迟的核心业务指标。这些代理作为专门的机器学习工程师(MLEs),展现出深度推理能力,发现优化算法和模型架构的新改进,并制定针对长期用户参与度的创新奖励函数。YouTube上的多个成功生产发布案例表明,这种自主、由LLM驱动的进化方法在开发速度和模型性能上均优于传统工程流程。
self-evolution LLM agents recommendation system autonomous optimization
论文核心研究LLM驱动的自主进化系统,涉及模型自我优化与持续改进机制。
EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems
Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen et al.
南洋理工大学
10/10 2026-02-10 cs.SE PDF
随着大语言模型(LLMs)在编程任务中的不断进步,LLM驱动的编程系统已从一次性代码生成发展为能够在推理过程中进行迭代改进的复杂系统。然而,现有的代码基准主要强调静态正确性,并隐含假设推理过程中模型能力固定。因此,它们无法捕捉推理时的自我进化,如准确性与效率是否随代理逐步优化解决方案而提升。此外,这些基准对资源成本的考量有限,且很少将模型性能与人类程序员进行校准。许多基准还以高资源语言为主,导致跨语言鲁棒性和长尾语言稳定性研究不足。为此,我们提出了EvoCodeBench,一个用于评估跨编程语言的自进化LLM驱动编程系统的基准,可直接与人类表现进行比较。EvoCodeBench追踪性能动态变化,测量解题正确性及效率指标,如解决时间、内存消耗和改进算法设计。通过将模型性能与人类程序员在相同任务上的表现直接对比,使评估基于以人为中心的参考框架。此外,EvoCodeBench支持多种编程语言,可在统一协议下进行系统化的跨语言和长尾语言稳定性分析。我们的结果表明,自进化系统在效率方面具有可衡量的提升,而相对人类表现和多语言分析提供了仅凭准确率无法获得的见解。EvoCodeBench为评估演进中的LLM驱动系统的编码智能奠定了基础。
self-evolution benchmark LLM coding systems human comparison
论文聚焦于LLM驱动的编码系统的自我进化能力,评估其在推理过程中的迭代改进。
RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution
Jinming Nian, Fangchen Li, Dae Hoon Park, Yi Fang
Santa Clara University, Santa Clara, CA, USA Walmart Global Tech, Sunnyvale, CA, USA Independent Researcher, Bothell, WA, USA
9/10 2026-02-18 cs.IR PDF
BM25和带有狄利克雷平滑的查询似然等检索算法仍然是高效的第一阶段排序器,但其改进主要依赖于参数调优和人类直觉。本文探讨了是否可以通过评估器引导的大语言模型(LLM)和进化搜索,自动发现改进的词法检索算法。我们引入了RankEvolve,这是一种基于AlphaEvolve的程序进化框架,候选排序算法以可执行代码形式表示,并通过迭代变异、重组和选择进行优化,依据在BEIR和BRIGHT数据集上的检索性能进行评估。RankEvolve从两个种子程序开始:BM25和带狄利克雷平滑的查询似然。进化出的算法新颖且有效,在完整的BEIR和BRIGHT基准测试以及TREC DL 19和20上均表现出良好的迁移能力。实验结果表明,评估器引导的LLM程序进化是自动发现新型排序算法的一种可行路径。
LLM进化 程序演化 检索算法 自动优化
论文核心研究基于LLM的进化方法自动发现检索算法,直接涉及自我进化机制。
Code
Discovering Multiagent Learning Algorithms with Large Language Models
Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
Google DeepMind
9/10 2026-02-18 cs.GT PDF
多智能体强化学习(MARL)在不完全信息博弈中的进展很大程度上依赖于对基线的逐步手动优化。尽管反事实遗憾最小化(CFR)和策略空间响应预言机(PSRO)等基础方法具有坚实的理论基础,但其最优变体的设计通常依赖人类直觉来探索庞大的算法设计空间。本文提出使用AlphaEvolve,一种由大语言模型驱动的进化编码代理,以自动发现新的多智能体学习算法。通过在两个不同的博弈论学习范式中演化新变体,展示了该框架的通用性。首先,在迭代遗憾最小化领域,演化出新的VAD-CFR算法;其次,在基于种群的训练算法中,演化出SHOR-PSRO算法,均表现出优于现有方法的性能。
multi-agent learning evolutionary algorithms large language models game theory
论文核心研究了基于LLM的进化算法自动发现多智能体学习算法,直接涉及自我进化机制。
Simple Baselines are Competitive with Code Evolution
Yonatan Gideoni, Sebastian Risi, Yarin Gal
University of Oxford · Sakana AI and ITU Copenhagen
9/10 2026-02-18 cs.AI PDF
代码进化是一类依赖大语言模型通过演化或变异现有代码来搜索可能的计算机程序的技术。许多提出的代码进化流程表现出令人印象深刻的效果,但通常未与更简单的基线进行比较。本文测试了两种简单基线在三个领域中的表现:寻找更好的数学边界、设计代理框架以及机器学习竞赛。结果发现,在所有三个领域中,这些简单基线的表现均能匹配甚至超越更复杂的算法。通过分析结果,我们发现了代码进化在开发和使用中的多种不足之处。对于数学边界问题,搜索空间和提示中的领域知识是决定搜索性能上限和效率的主要因素,而代码进化流程则处于次要地位。因此,改进边界的首要挑战在于设计良好的搜索空间,这由领域专家完成,而非搜索本身。在设计代理框架时,我们发现高方差的框架结合小数据集会导致次优框架被选中,从而手动设计的多数投票框架表现最佳。我们提出了减少评估随机性同时保持代码进化经济可行性的更好评估方法。最后,我们讨论了未来工作中实现更严格代码进化的途径和最佳实践。
代码进化 基线对比 搜索空间设计 代理框架 评估方法
论文核心研究代码进化方法,并分析其性能与改进方向,直接涉及自我进化主题。
Code
Optimizing Soft Prompt Tuning via Structural Evolution
Zhenzhen Huang, Chaoning Zhang, Haoyu Bian, Songbo Zhang, Chi-lok Andy Tai et al.
清华大学电子工程系
9/10 2026-02-18 cs.CL PDF
软提示调优利用连续嵌入来捕捉大预训练语言模型中的任务特定信息,在少样本设置中表现出竞争力。然而,软提示依赖于高维、隐式的表示,缺乏显式语义和可追溯的训练行为,限制了其可解释性。为解决这一问题,本文提出一种基于拓扑形态演化的软提示调优优化方法。具体而言,我们采用拓扑数据分析中的持久同源性来量化软提示在连续参数空间中的结构表示及其训练过程的演化。定量分析表明,具有拓扑稳定性和紧凑性的软提示在下游任务中表现更优。基于这一经验观察,我们构建了一个用于优化软提示调优的损失函数,称为拓扑软提示损失(TSLoss)。TSLoss通过量化参数间的连接性和冗余性,引导模型学习结构稳定的适应。大量实验表明,使用TSLoss进行训练可以加速收敛并提升调优性能,从结构和拓扑视角提供了一种可解释的方法来理解和优化软提示调优。
软提示调优 拓扑数据分析 结构演化 持续学习 模型优化
论文提出基于拓扑形态演化的软提示优化方法,直接涉及Agent/LLM的自我进化与结构优化机制。
Updating Parametric Knowledge with Context Distillation Retains Post-Training Capabilities
Shankar Padmanabhan, Mustafa Omer Gul, Tanya Goyal
康奈尔大学计算机科学系
9/10 2026-02-17 cs.CL PDF
预训练后的大型语言模型(LLMs)具备多种有用的技能,如指令遵循和推理能力。然而,这些模型的知识仅涵盖截止日期前的内容,需要持续适应。现有方法无法同时从适应文档语料库中学习新知识并缓解早期技能遗忘。为此,本文提出基于上下文蒸馏的持续知识适应方法DiSC。该方法通过在训练样例的不同片段上生成学生和教师分布,并最小化共享标记之间的KL散度,从而高效应用上下文蒸馏而无需显式生成步骤。实验表明,与先前的微调和蒸馏方法相比,DiSC在学习新知识和减少先前技能遗忘之间取得了最佳平衡。
持续学习 知识蒸馏 模型适应 自我进化
论文聚焦于LLM的持续适应与知识更新,直接涉及自我进化和持续学习机制。
Code
Evolutionary System Prompt Learning can Facilitate Reinforcement Learning for LLMs
Lunjun Zhang, Ryan Chen, Bradly C. Stadie
多伦多大学计算机科学系
9/10 2026-02-16 cs.AI PDF
构建能够从经验中自主自我改进的智能体系统是人工智能领域的长期目标。目前,大型语言模型(LLMs)主要通过两种机制实现自我改进:通过自我反思更新上下文,以及通过强化学习(RL)更新权重。在本文中,我们提出了进化系统提示学习(E-SPL),一种联合改进模型上下文和模型权重的方法。在每次强化学习迭代中,E-SPL选择多个系统提示并并行运行。它根据每个系统提示对模型权重进行强化学习更新,并通过由LLM驱动的突变和交叉对系统提示种群进行进化更新。每个系统提示都有一个TrueSkill评分用于进化选择,该评分基于每次强化学习迭代批次中的相对性能进行更新。E-SPL鼓励将声明性知识编码在提示中与过程性知识编码在权重中自然分离,从而在推理和智能体任务中取得更好的性能。例如,在一个从易到难(AIME→BeyondAIME)的泛化设置中,E-SPL将强化学习的成功率从38.8%提升至45.1%,同时优于反射提示进化(40.0%)。总体而言,我们的结果表明,将强化学习与系统提示进化相结合可以显著提高样本效率和泛化能力。
强化学习 进化算法 系统提示 自我进化 LLM优化
论文提出了一种结合进化机制的系统提示学习方法,直接针对Agent/LLM的自我进化能力进行研究。
Code
ST-EVO: Towards Generative Spatio-Temporal Evolution of Multi-Agent Communication Topologies
Xingjian Wu, Xvyuan Liu, Junkai Lu, Siyuan Wang, Yang Shu et al.
东华大学
9/10 2026-02-16 cs.MA PDF
基于大语言模型的多智能体系统(MAS)已成为实现协作智能的有效方法,并受到广泛关注。其中,自演化的MAS作为一种更灵活和强大的技术路线,能够构建任务自适应的工作流或通信拓扑,而非依赖预定义的静态结构模板。当前的自演化MAS主要关注空间演化或时间演化范式,仅考虑单一维度的演化,未能充分激发LLMs的协作能力。本文从新的时空视角出发,提出ST-EVO方法,通过基于流匹配的调度器支持对话级通信调度。为实现精确的时空调度,ST-EVO能够感知MAS的不确定性,并具备自我反馈能力以从积累的经验中学习。在九个基准上的广泛实验表明,ST-EVO表现出最先进的性能,准确率提升了约5%至25%。
multi-agent systems self-evolving spatio-temporal evolution communication topology flow-matching
论文聚焦于多智能体系统的自进化机制,提出时空联合进化的通信拓扑生成方法,属于自我进化主题的核心研究。
Beyond Static Snapshots: Dynamic Modeling and Forecasting of Group-Level Value Evolution with Large Language Models
Qiankun Pi, Guixin Su, Jinliang Li, Mayi Xu, Xin Miao et al.
Wuhan University Wuhan, Hubei, China
9/10 2026-02-15 cs.SI PDF
社会模拟对于挖掘复杂社会动态和支撑数据驱动决策至关重要。基于大语言模型(LLM)的方法通过模仿人类社会问卷回答来建模群体行为,已成为该任务的重要工具。现有LLM方法主要关注离散时间点上的群体价值观,将其视为静态快照,而忽视了其作为长期社会变化结果的动态特性。为此,本文提出了一种新的框架,将历史价值轨迹整合到LLM的人类响应建模中,并选取中国和美国作为代表背景,在四个核心社会人口统计维度上进行分层模拟。利用世界价值观调查构建多轮、群体层面的纵向数据集,捕捉历史价值演变,并首次提出基于事件的预测方法,统一社会事件、当前价值状态和群体属性。实验结果显示,该方法在多个LLM家族中均取得显著提升,且发现不同群体间存在显著异质性。这些发现推动了基于LLM的社会模拟研究,并为社会科学家理解与预测社会价值变化提供了新视角。
社会模拟 群体价值演化 大语言模型 纵向数据分析 事件驱动预测
论文聚焦于群体价值观的动态演化建模,与自我进化主题高度相关。
OR-Agent: Bridging Evolutionary Search and Structured Research for Automated Algorithm Discovery
Qi Liu, Wanjing Ma
交通运输部公路科学研究院
9/10 2026-02-14 cs.AI PDF
在复杂且依赖实验的科学发现领域中,自动化不仅需要程序的迭代变异,还需要结构化的假设管理、环境交互和原则性反思。本文提出了OR-Agent,一种可配置的多智能体研究框架,旨在用于丰富实验环境中的自动化探索。OR-Agent将研究组织为基于树的结构化工作流,显式建模分支假设生成和系统回溯,从而实现对研究轨迹的控制管理,超越简单的变异-交叉循环。其核心引入了一种进化-系统性思想机制,统一了研究起点的进化选择、全面的研究计划生成以及研究树内的协调探索。此外,还提出了一种受分层优化启发的反思系统:短期实验反思作为一种语言梯度提供即时校正信号;长期反思积累跨实验的见解作为语言动量;记忆压缩则作为类似权重衰减的正则化机制,保留关键信号并减少漂移。这些组件共同构成了一个指导研究动态的原则性架构。我们在经典组合优化基准(如旅行商问题、带容量约束的车辆路径问题、装箱问题、定向越野问题和多重背包问题)以及基于模拟的合作驾驶场景中进行了大量实验。结果表明,OR-Agent优于强大的进化基线,并提供了一个通用、可扩展且可检查的AI辅助科学发现框架。
进化算法 多智能体系统 科学发现自动化 结构化研究 反思机制
论文核心围绕进化搜索与结构化研究的结合,提出了一种基于进化的系统性思想机制和反思系统。
Code
Elo-Evolve: A Co-evolutionary Framework for Language Model Alignment
Jing Zhao, Ting Zhen, Junwei bao, Hongfei Jiang, Yang song
北京,中国
9/10 2026-02-14 cs.CL PDF
当前大型语言模型(LLMs)的对齐方法依赖于将大量人类偏好数据压缩为静态的绝对奖励函数,导致数据稀缺、噪声敏感和训练不稳定。本文提出Elo-Evolve,一种协同进化框架,将对齐重新定义为在自适应对手池中的动态多智能体竞争。该方法有两个关键创新点:(1)通过直接从成对竞争中的二元胜负结果中学习,消除Bradley-Terry模型的依赖;(2)采用Elo协调的对手选择机制,通过温度控制采样实现自动课程学习。本文基于PAC学习理论,证明成对比较在样本复杂度上优于绝对评分方法,并通过实验验证其相比绝对评分方法具有4.5倍的噪声降低效果。实验中使用Qwen2.5-7B模型进行训练,对手包括Qwen2.5-14B、Qwen2.5-32B和Qwen3-8B模型,结果显示Elo-Evolve在Alpaca Eval 2.0和MT-Bench基准测试中表现优于其他方法,验证了成对比较和动态对手选择在LLM对齐中的渐进优势。
语言模型对齐 协同进化 动态对手选择 课程学习
论文提出了一种基于动态多智能体竞争的框架,强调模型通过与不同对手的交互实现自我进化和对齐。
NeuroWeaver: An Autonomous Evolutionary Agent for Exploring the Programmatic Space of EEG Analysis Pipelines
Guoan Wang, Shihao Yang, Jun-En Ding, Hao Zhu, Feng Liu
美国斯坦福大学系统工程系
9/10 2026-02-13 cs.AI PDF
尽管基础模型在通用领域表现出色,但将其应用于脑电图(EEG)分析时受到大量数据需求和高参数化限制,导致计算成本高昂,难以在资源受限的临床环境中部署。通用自动化机器学习框架在此领域也存在不足,因未充分结合神经生理学先验知识,常产生缺乏科学合理性的解决方案。为此,本文提出NeuroWeaver,一种统一的自主进化代理,通过将流程工程重构为离散约束优化问题,实现对多样化EEG数据集和任务的泛化。具体而言,采用领域感知子空间初始化方法,将搜索范围限制在神经科学合理的流形中,并结合多目标进化优化,通过自反思精炼动态平衡性能、新颖性和效率。实验结果表明,NeuroWeaver在五个异构基准测试中生成的轻量级解决方案,性能优于现有任务特定方法,并可与大规模基础模型媲美,同时使用更少的参数。
进化算法 EEG分析 自主代理 多目标优化 神经科学
论文核心围绕自主进化代理NeuroWeaver,采用多目标进化优化和自反思改进机制,直接对应自我进化主题。
AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection
Pretam Ray, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum
IIT Kharagpur Advanced Micro Devices, Inc. (AMD)
9/10 2026-02-12 cs.CL PDF
进化型代理系统在推理过程中反复调用大语言模型(LLMs),加剧了计算效率与推理能力之间的权衡。本文提出AdaptEvolve,一种基于内在生成置信度的自适应LLM选择方法,在进化序列优化框架中实现多LLM的进化优化。实验结果表明,该方法在保持静态大模型基线97.5%上界准确率的同时,平均减少了37.9%的推理成本。该研究为进化型AI代理提供了高效的模型选择策略。
进化代理 自适应模型选择 计算效率优化 多LLM进化
论文聚焦于进化型AI代理的模型选择机制,直接涉及自我进化与适应性改进。
Code
Interactive LLM-assisted Curriculum Learning for Multi-Task Evolutionary Policy Search
Berfin Sakallioglu, Giorgia Nadizar, Eric Medvet
米兰理工大学 - 里雅斯特分校, 意大利 图卢兹大学, 法国 都灵大学, 意大利
9/10 2026-02-11 cs.NE PDF
多任务策略搜索是一个具有挑战性的问题,因为策略需要在训练案例之外进行泛化。课程学习已被证明在此场景中有效,因为它逐步引入复杂性。然而,设计有效的课程需要大量劳动和领域专业知识。基于大语言模型(LLM)的课程生成最近才出现作为潜在解决方案,但此前仅限于静态、离线模式,无法利用优化器的实时反馈。本文提出了一种交互式LLM辅助框架,用于在线课程生成,其中LLM根据进化优化过程的实时反馈自适应地设计训练案例。我们研究了不同反馈模式(从仅数字指标到结合图表和行为可视化)如何影响LLM生成有意义课程的能力。通过一个二维机器人导航案例研究,并使用遗传编程作为优化器,我们评估了我们的方法与静态LLM生成课程和专家设计基线的对比结果。结果显示,交互式课程生成优于静态方法,结合进度图和行为可视化的多模态反馈性能可与专家设计的课程相媲美。这项工作有助于理解LLM如何作为具身人工智能系统的交互式课程设计者,并可能扩展到更广泛的进化机器人应用。
evolutionary policy search curriculum learning LLM-assisted design multi-task learning interactive feedback
论文聚焦于多任务进化策略搜索中的课程学习,LLM辅助的交互式课程生成直接服务于进化过程的优化。
C-MOP: Integrating Momentum and Boundary-Aware Clustering for Enhanced Prompt Evolution
Binwei Yan, Yifei Fu, Mingjian Zhu, Hanting Chen, Mingxuan Yuan et al.
华为诺亚方舟实验室
9/10 2026-02-11 cs.CL PDF
自动提示优化是提升大语言模型(LLMs)性能的一个有前景的方向。然而,现有方法常受到噪声和冲突更新信号的影响。本研究提出了C-MOP(基于聚类的动量优化提示),通过边界感知对比采样(BACS)和动量引导语义聚类(MGSC)稳定优化过程。具体而言,BACS利用批量级信息挖掘三元特征——硬负样本、锚点和边界对,以精确刻画正负提示样本的典型表示和决策边界。为了解决语义冲突,MGSC引入了一个具有时间衰减的文本动量机制,从迭代中的波动梯度中提炼出持久共识。大量实验表明,C-MOP在PromptWizard和ProTeGi等SOTA基线方法上表现更优,平均提升分别为1.58%和3.35%。值得注意的是,C-MOP使一个拥有30亿激活参数的一般LLM超越了700亿参数的领域专用密集型LLM,凸显了其在推动精确提示进化方面的有效性。
prompt optimization self-evolution semantic clustering momentum mechanism
论文聚焦于提示的优化与进化,提出C-MOP框架提升LLM性能,属于自我进化方向的核心研究。
Code
Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation
Tianci Xue, Zeyi Liao, Tianneng Shi, Zilu Wang, Kai Zhang et al.
The Ohio State University
9/10 2026-02-10 cs.CL PDF
现实世界的数字环境高度多样且动态,这使得代理经常面临未见过的场景和分布变化,因此在特定环境中进行持续学习对计算机使用代理(CUAs)至关重要。然而,获取高质量且基于环境的代理数据而不依赖昂贵的人工标注是一个关键挑战。本文提出ACuRL框架,一种自主课程强化学习方法,能够在零人工数据的情况下使代理持续适应特定环境。代理首先探索目标环境以获取初始经验,随后通过课程任务生成器结合前一轮反馈合成新任务。为提供可靠的奖励信号,引入CUAJudge自动评估器,其与人类判断的一致性达到93%。实验表明,该方法有效实现了环境内和跨环境的持续学习,在不发生灾难性遗忘的情况下提升了4-22%的性能。进一步分析显示参数更新稀疏,有助于解释其有效性和鲁棒性。
持续学习 强化学习 自主适应 计算机使用代理
论文聚焦于Agent在动态环境中的持续学习与适应,属于自我进化的核心研究。
Code
ImprovEvolve: Ask AlphaEvolve to Improve the Input Solution and Then Improvise
Alexey Kravatskiy, Valentin Khrulkov, Ivan Oseledets
MIRAI Russia kravatskii@miriit.org FusionBrain Lab AXXX Russia
9/10 2026-02-10 cs.NE PDF
近期在LLM引导的进化计算领域,特别是AlphaEvolve方面取得了显著进展,展示了在发现新颖数学构造和解决复杂优化问题方面的成功。本文提出了一种名为ImprovEvolve的简单而有效的方法,用于增强基于LLM的进化方法,如AlphaEvolve。针对一个优化问题,通常的做法是进化能够生成接近最优解的程序代码。我们提出了一种替代的程序参数化方法,在保持构建最优解能力的同时降低LLM的认知负担。具体而言,我们进化出一个程序(例如实现具有预定义接口的Python类),提供以下功能:(1) 提出一个有效的初始解;(2) 在适应度方面改进任何给定的解;(3) 以指定强度扰动解。通过迭代应用improve()和perturb()函数,并根据预定强度安排,可以逐步逼近最优解。我们在AlphaEvolve论文中的挑战性问题上评估了ImprovEvolve:六边形在六边形内的排列以及第二个自相关不等式。对于六边形排列问题,进化的程序在11、12、15和16个六边形的情况下达到了新的最先进结果;经过轻微人工编辑的变体进一步提升了14、17和23个六边形的结果。对于第二个自相关不等式,人工编辑的程序实现了0.96258的新最先进下界,优于AlphaEvolve的0.96102。
evolutionary computation LLM-guided optimization self-improvement mathematical optimization
论文核心研究基于AlphaEvolve的改进方法,属于LLM引导的进化计算范畴,直接涉及自我进化与持续优化机制。
Code
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou et al.
北京智源人工智能研究院,北京,中国 伊利诺伊大学芝加哥分校,芝加哥,美国
9/10 2026-02-10 cs.CL PDF
基于大语言模型的多智能体系统为可扩展的集体智能和自进化提供了有前景的范式。理想情况下,这类系统能够在完全闭环中实现持续的自我改进,同时保持强大的安全对齐——我们称之为自进化的三难困境。然而,本文从理论和实证两方面证明,满足持续自进化、完全隔离和安全性不变的智能体社会是不可能的。通过信息论框架,我们将安全性形式化为与人类价值观分布的偏离程度。理论上证明,孤立的自进化会导致统计盲区,从而不可逆地降低系统的安全性对齐。通过对开放式的智能体社区(Moltbook)以及两个封闭自进化系统的实证和定性研究,揭示了与理论预测一致的安全性退化现象。我们进一步提出了一些缓解该安全问题的解决方案方向。本研究确立了自进化AI社会的根本限制,并将讨论从症状驱动的安全补丁转向对内在动态风险的原则性理解,突出了外部监督或新型安全机制的必要性。
self-evolution safety alignment multi-agent systems information theory
论文聚焦于自进化AI社会的安全性问题,直接涉及自我进化机制及其内在风险。
Towards Better Evolution Modeling for Temporal Knowledge Graphs
Zhang Jiasheng, Li Zhangpin, Wang Mingzhe, Shao Jie, Cui Jiangtao et al.
西安电子科技大学 北京大学 电子科技大学 北京邮电大学
9/10 2026-02-09 cs.AI PDF
时间知识图谱(TKGs)结构化地保存了人类知识的演变过程。近期研究致力于设计模型以学习TKGs的演化特性,从而预测未来事实,并取得了显著成果。然而,我们发现现有基准测试无意中引入了一种捷径:通过统计共现即可获得接近最先进的性能,而无需使用任何时间信息。本文分析了这一问题的根本原因,识别出现有数据集中的固有偏差以及过于简化的评估任务形式,这些偏差可被利用。进一步揭示了现有基准的其他局限性,包括时间区间知识的不合理格式、对知识过时学习的忽视以及精确演化理解所需信息的不足,所有这些问题都会放大捷径并阻碍公平评估。因此,我们引入了TKG演化基准,包含四个偏差修正的数据集和两个与演化过程紧密相关的新型任务,推动对TKG演化建模挑战的更准确理解。
时间知识图谱 演化建模 基准测试 知识过时 共现捷径
论文聚焦于时间知识图谱的演化建模,直接涉及自我进化和持续学习的核心机制。
Code
G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design
Baoyun Zhao, He Wang, Liang Zeng
美国东北大学软件学院 中国理论物理研究所 清华大学物理系
9/10 2026-02-09 cs.AI PDF
尽管大型语言模型(LLMs)在启发式自动设计(AHD)方面展现出潜力,但现有方法通常围绕构造性优先规则或参数化局部搜索指导进行建模,限制了搜索空间到固定启发式形式。此类设计在结构探索能力上有限,难以逃离复杂组合优化问题(COPs)中的深层局部最优解。本文提出G-LNS,一种生成进化框架,将基于LLM的AHD扩展到大邻域搜索(LNS)算子的自动化设计。与以往独立进化解的方法不同,G-LNS利用LLMs协同进化紧密耦合的破坏和修复算子对。合作评估机制显式捕捉它们的交互,从而发现能够有效进行结构破坏和重建的互补操作逻辑。在具有挑战性的COP基准测试(如旅行商问题TSP和带容量约束的车辆路径问题CVRP)上的大量实验表明,G-LNS显著优于基于LLM的AHD方法以及强大的经典求解器。所发现的启发式方法不仅在减少计算预算的情况下实现了接近最优解,而且在多样且未见过的实例分布中表现出稳健的泛化能力。
Large Neighborhood Search Automated Heuristic Design Evolutionary Framework LLM-based Optimization
论文提出了一种基于LLM的生成进化框架,用于自动设计LNS算子,核心围绕自我进化与改进。
Code
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.
中国科学技术大学
9/10 2026-02-09 cs.AI PDF
随着后训练优化成为提升大语言模型的关键手段,研究发现当模型变得高度自信时,进一步训练的效果逐渐减弱。本文提出WMSS(弱代理可使强代理更强)范式,利用模型历史中的弱状态作为信息监督信号,通过熵动态识别可恢复的学习差距,并通过补偿性学习进行强化。实验表明,该方法在数学推理和代码生成任务中有效提升了模型性能,且不增加推理成本。
持续学习 后训练优化 自我进化 补偿性学习
论文聚焦于通过弱状态引导强模型的持续优化,属于自我进化与持续学习的核心机制。
Code
Sparsity-Aware Evolution for Model Merging
Huan Zhang, Yanjian Zhang, Guillaume Wisniewski, Nadi Tomeh, Bang Liu
DIRO & Institut Courtois, Université de Montréal Mila – Quebec AI Institute Université Sorbonne Paris Nord, LIPN, CNRS Université Paris Cité, LLF, CNRS
9/10 2026-02-09 cs.LG PDF
本文提出了一种面向稀疏性的进化(SAE)框架,用于模型合并。该框架通过迭代的剪枝-合并循环作为新的变异算子,并将稀疏性约束引入评分函数,引导进化过程更倾向于选择稀疏模型。实验表明,该方法在多个大规模LLM基准测试中提升了模型合并的可靠性,且由于其简单性和与现有方法的正交性,易于集成。
模型合并 稀疏性优化 进化算法 LLM优化
论文提出了一种基于稀疏性的进化框架,用于模型合并,核心围绕Agent/LLM的自我进化机制。
Online Domain-aware LLM Decoding for Continual Domain Evolution
Mohammad Abu-Shaira, Weishi Shi
9/10 2026-02-08 cs.LG PDF
通常情况下,大语言模型(LLMs)通过离线微调特定领域的数据进行训练,假设领域是静态的。然而,在实际应用中,领域知识会随着新法规、产品、服务和交互模式的不断出现而持续演变。对每个新实例重新训练或微调LLM在计算上不可行。此外,现实环境也表现出时间动态性,数据分布不断变化。忽视这一现象(即概念漂移)会显著降低模型的预测准确性。为解决这一问题,本文提出了一种在线域感知解码框架(ODD),该框架通过概率级融合基础LLM与前缀树先验,并利用分歧和连续性信号进行自适应置信度调节。在多种漂移场景下的实验证明,ODD在所有语法和语义自然语言生成指标上均优于LLM-Greedy和LLM-Temp Scaled。其ROUGE-L得分绝对提升0.065,余弦相似度相对提高13.6%。这些结果表明,ODD能够有效应对词汇和上下文模式的演变,适用于动态LLM应用场景。
持续学习 概念漂移 在线学习 自然语言生成 域适应
论文聚焦于LLM在动态领域中的实时适应,提出在线域感知解码框架以应对概念漂移问题,属于自我进化与持续学习的核心研究。
AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering
Yuzhu Cai, Zexi Liu, Xinyu Zhu, Cheng Wang, Jiaao Chen et al.
9/10 2026-02-08 cs.LG PDF
自主机器学习工程(MLE)要求智能体在长周期内进行持续、迭代的优化。尽管基于LLM的智能体展现出潜力,但当前基于提示的MLE智能体由于参数冻结而存在行为停滞问题。虽然强化学习(RL)可以提供解决方案,但在MLE中的应用受到执行延迟高和数据选择效率低的限制。为此,本文提出AceGRPO方法,包含两个核心组件:(1)演化数据缓冲区,持续将执行轨迹转化为可复用的训练任务;(2)由可学习性势函数引导的自适应采样策略,动态优先选择智能体学习前沿的任务以最大化学习效率。通过AceGRPO训练的Ace-30B模型在MLE-Bench-Lite上实现了100%的有效提交率,接近专有前沿模型的性能,并优于更大的开源基线模型(如DeepSeek-V3.2),展示了其在持续迭代优化方面的强大能力。
自主机器学习 强化学习 持续优化 自适应采样 演化数据缓冲
论文聚焦于自主机器学习工程中的持续优化与自我进化机制,提出适应性课程增强的策略。
Code
ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation
Jingqi Zhou, Sheng Wang, DeZhao Deng, Junwen Lu, Junwei Su et al.
9/10 2026-02-08 cs.AI PDF
基于大语言模型(LLM)的智能体系统在处理复杂、长期任务方面展现出巨大潜力。然而,其效能受到静态配置的限制,这些配置在执行前固定不变,无法适应任务动态变化。现有方法依赖手动调度或启发式补丁,往往泛化能力差且优化碎片化。为此,本文提出ToolSelf,一种新的范式,实现工具驱动的运行时自我重构。通过将配置更新抽象为可调用工具,ToolSelf将任务执行与自我调整统一到单一动作空间,实现了从外部规则向内部参数的转变。智能体可根据任务进展自主更新子目标和上下文,并相应调整策略和工具箱,从而从被动执行者转变为任务与自我的双重管理者。此外,我们设计了配置感知两阶段训练(CAT),结合拒绝采样微调与轨迹级强化学习,以内化这种元能力。大量实验表明,ToolSelf在多种基准测试中表现优异,平均性能提升24.1%,展示了真正自适应智能体的发展路径。
self-adaptation tool-driven agent evolution reinforcement learning
论文核心聚焦于Agent的自我适应与重构机制,属于自我进化(evolution)主题。
Agentic Wireless Communication for 6G: Intent-Aware and Continuously Evolving Physical-Layer Intelligence
Zhaoyang Li, Xingzhi Jin, Junyu Pan, Qianqian Yang, Zhiguo Shi
中国电子科技集团有限公司
8/10 2026-02-19 cs.AI PDF
随着6G无线系统的演进,功能复杂性和多样化服务需求推动了从基于规则的控制向意图驱动的自主智能的转变。用户需求不再仅由单一指标(如吞吐量或可靠性)定义,而是由延迟敏感性、能耗偏好、计算约束和服务级要求等多维目标构成,并可能随环境动态和用户-网络交互而变化。因此,准确理解通信环境和用户意图对于实现自主且可持续演进的6G通信至关重要。大语言模型(LLMs)凭借其强大的上下文理解和跨模态推理能力,为意图感知的网络代理提供了有前景的基础。相比基于规则或集中优化的设计,基于LLM的代理可以整合异构信息并将自然语言意图转化为可执行的控制和配置决策。本文聚焦于意图感知、自主决策和网络执行的闭环流程,研究6G物理层的代理AI及其实现路径。我们回顾了代表性物理层任务及其在支持意图感知和自主性方面的局限性,识别了代理AI具有优势的应用场景,并讨论了多模态感知、跨层决策和可持续优化中的关键挑战与使能技术。最后,我们提出了一种意图驱动的链路决策代理AgenCom,它能够根据多样化的用户偏好和信道条件自适应地构建通信链路。
6G 意图感知 自主通信 LLM 持续进化
论文聚焦于6G通信中基于意图的自主智能系统,强调持续进化和适应用户需求变化的能力。
Task-Agnostic Continual Learning for Chest Radiograph Classification
Muthu Subash Kavitha, Anas Zafar, Amgad Muneer, Jia Wu
德克萨斯MD安德森癌症中心
8/10 2026-02-17 cs.CV PDF
在临床部署胸部X光分类器时,需要能够在新数据集出现时进行更新,而无需重新训练已有数据或降低验证性能。本文首次研究了胸部X光分类的逐任务增量持续学习场景,其中异构的胸部X光数据集按顺序到达,且推理时无法获取任务标识符。我们提出了一种基于持续适配器路由学习策略(CARL-XRay),该方法固定高容量主干网络,并逐步分配轻量级任务特定适配器和分类头。通过潜在任务选择器对任务适配特征进行操作,利用紧凑原型和特征级经验回放保留当前和历史上下文。该设计支持在连续更新中稳定识别和适应任务,同时避免存储原始图像。实验表明,在大规模公共胸部X光数据集上,CARL-XRay在持续数据摄入下表现出稳健的性能保持和可靠的任务感知推理。CARL-XRay在任务未知部署下优于联合训练,达到更高的路由准确率(75.0% vs. 62.5%),同时在使用更少可训练参数的情况下保持竞争力的诊断性能。
持续学习 医学影像分类 任务增量学习 适配器网络 特征回放
论文研究了在连续数据流下的模型更新机制,强调持续学习与适应能力,符合自我进化主题。
Policy Gradient with Adaptive Entropy Annealing for Continual Fine-Tuning
Yaqian Zhang, Bernhard Pfahringer, Eibe Frank, Albert Bifet
1. AI Institute, University of Waikato 2. LTCI, Télécom Paris
8/10 2026-02-15 cs.LG PDF
尽管大型预训练视觉模型在许多任务中表现出色,但在增量分类设置中仍容易出现灾难性遗忘。参数高效的微调(PEFT)通过限制可训练参数缓解了这一问题,但大多数方法仍依赖交叉熵(CE)损失来学习新数据。本文从强化学习的角度重新审视这一选择,并通过将分类建模为一步马尔可夫决策过程,推导出一种期望策略梯度(EPG)方法,直接最小化分类错误并具有低方差梯度估计。分析表明,CE可以被解释为带有额外样本加权机制的EPG:CE强调低置信度样本以鼓励探索,而EPG则优先处理高置信度样本。基于此,本文提出自适应熵退火(aEPG)训练策略,从探索性(类似CE)学习过渡到利用性(类似EPG)学习。实验表明,aEPG方法在多个基准测试和不同PEFT模块中均优于基于CE的方法。更广泛地,本文评估了多种熵正则化方法,并证明输出预测分布的较低熵值有助于提升预训练视觉模型的适应能力。
持续学习 参数高效微调 熵正则化 强化学习 灾难性遗忘
论文聚焦于模型在持续微调中的自我适应与遗忘问题,提出改进方法以增强模型的持续学习能力,属于自我进化范畴。
Lamer-SSL: Layer-aware Mixture of LoRA Experts for Continual Multilingual Expansion of Self-supervised Models without Forgetting
Jing Xu, Minglin Wu, Xueyuan Chen, Xixin Wu, Helen Meng
香港大学
8/10 2026-02-13 cs.CL PDF
尽管自监督语音模型表现出色,但它们在泛化到新语言时存在困难,并且在持续训练过程中容易遗忘先前习得的知识。为了解决这一问题,本文提出Lamer-SSL,一种参数高效的框架,结合了层感知的LoRA专家混合模块(Lamer)和重放策略。Lamer模块能够灵活平衡共享表示与语言特定表示,而层感知专家分配则将更多专家分配给语义信息更丰富的深层。同时,重放策略通过最小数据保留先验知识,缓解持续训练中的遗忘问题。实验表明,Lamer-SSL能有效扩展自监督模型至新语言,同时保持对已学语言的高性能,仅需2.14%的可训练参数。
持续学习 多语言扩展 LoRA 自监督学习 防止遗忘
论文聚焦于模型在持续训练中防止遗忘并扩展多语言能力,属于自我进化与持续学习的核心研究。
MePo: Meta Post-Refinement for Rehearsal-Free General Continual Learning
Guanglong Sun, Hongwei Yan, Liyuan Wang, Zhiqi Kang, Shuang Cui et al.
8/10 2026-02-08 cs.AI PDF
为了应对外部世界的不确定变化,智能系统必须从复杂、不断演变的环境中持续学习并实时响应。这种能力被称为通用持续学习(GCL),涵盖了在线数据流和模糊任务边界等实际挑战。尽管利用预训练模型(PTMs)已显著推进了传统持续学习(CL),但这些方法在单次处理过程中难以协调多样化且时间混合的信息,导致GCL性能欠佳。受神经科学中元可塑性和重构记忆的启发,本文提出了一种名为Meta Post-Refinement(MePo)的新方法,用于基于PTMs的GCL。该方法从预训练数据中构建伪任务序列,并开发了一个双层元学习范式来优化预训练主干网络,这相当于延长了预训练阶段,但大大促进了表示学习对下游GCL任务的快速适应。MePo进一步初始化一个元协方差矩阵作为预训练表示空间的参考几何结构,使GCL能够利用二阶统计量实现鲁棒的输出对齐。MePo作为一种插件策略,在多种GCL基准测试和预训练检查点上实现了显著的性能提升,且无需重放机制。
持续学习 元学习 自我进化 表示学习 预训练模型
论文提出MePo方法,通过元学习和重构记忆机制提升模型的持续学习能力,属于自我进化与自适应的核心研究。
Code
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection
Guanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su et al.
8/10 2026-02-08 cs.LG PDF
大型语言模型(LLMs)在安全微调过程中常面临对齐税问题,即安全性提升会损害通用能力(如推理和编码)。本文认为,这种现象主要源于连续学习中的遗忘问题,安全更新可能覆盖预训练能力。为此,作者将安全对齐视为持续学习问题,提出正交梯度投影用于安全对齐(OGPSA),通过约束安全更新方向与能力子空间正交,减少干扰并保留原有能力。实验表明,OGPSA在多种微调设置中显著提升了安全性和实用性平衡。
持续学习 安全对齐 模型能力保持 正交投影
论文聚焦于LLM在安全对齐过程中的持续学习问题,涉及模型能力的保持与更新机制,属于自我进化范畴。
Code
Do Neural Networks Lose Plasticity in a Gradually Changing World?
Tianhui Liu, Lili Mou
7/10 2026-02-09 cs.LG PDF
持续学习已成为机器学习领域的热点话题。近期研究发现了一种称为“可塑性丧失”的现象,即神经网络逐渐失去学习新任务的能力。然而,现有研究大多依赖于人为设计的突变任务转换场景,这往往无法反映真实世界环境。本文提出研究一个逐渐变化的环境,并通过输入/输出插值和任务采样进行模拟。通过理论和实证分析,我们表明可塑性丧失是环境突变任务变化的结果,并且如果世界变化是渐进的,这种现象可以得到显著缓解。
持续学习 可塑性丧失 渐变环境 神经网络 自我适应
论文探讨了神经网络在渐变环境中的可塑性变化,涉及持续学习和适应能力,与自我进化相关。
排序:
每页显示:
RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
Yunseok Han, Yejoon Lee, Jaeyoung Do
AIDAS Laboratory, IPAII & ECEC, Seoul National University
10/10 2026-02-19 cs.AI PDF
大型推理模型(LRMs)表现出色,但其生成的推理过程往往看似合理却未能真实反映决策过程,从而影响其可靠性和信任度。本文提出了一种形式化的推理可信度框架,定义了两个可测试条件:立场一致性(推理与答案之间的连贯性)和因果影响(在输出级干预下,陈述的推理是否因果驱动答案),并明确将其与准确性解耦。为此,我们提出了RFEval基准测试集,包含7,186个实例,通过受控的输出级反事实干预来探测推理可信度。评估十二个开源LRMs后发现,49.7%的输出存在不可信问题,主要源于立场不一致。失败案例集中在数学和代码等脆弱且收敛领域,并与训练后策略相关性更高而非模型规模。关键发现是,准确性并非推理可信度的充分或可靠代理:控制模型和任务后,准确率与可信度之间的关联较弱且无统计显著性。本研究建立了一种严格的审计方法,表明可信AI不仅需要正确结果,还需优化推理过程的结构完整性。
推理可信度 反事实干预 大语言模型评估 因果推理
论文聚焦于大推理模型的推理过程可靠性,直接涉及推理能力的核心问题。
Code
Training Large Reasoning Models Efficiently via Progressive Thought Encoding
Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.
罗切斯特大学 微软研究
10/10 2026-02-18 cs.LG PDF
大型推理模型(LRMs)在复杂问题上表现出色,但面临效率瓶颈:基于强化学习的训练需要长序列展开以获取结果奖励,而自回归解码占用了大量时间和内存。尽管滑动窗口缓存策略可以限制内存使用,但会破坏长上下文推理并降低性能。本文提出渐进式思维编码(Progressive Thought Encoding),一种参数高效的微调方法,使LRMs能够在固定大小的缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示,该方法消除了对完整缓存展开进行反向传播的需求,从而减少内存使用,并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行的实验表明,在六个广泛使用的数学基准测试中,该方法平均比基于LoRA的微调提升了19.3%,比未微调的LRMs提升了29.9%,在AIME2024/2025数据集上最高提升了23.4个百分点。这些结果表明,渐进式思维编码不仅提高了推理准确性,还显著提升了LRMs在现实世界内存限制下的强化学习训练效率和可扩展性。
推理优化 缓存管理 参数高效微调 强化学习训练
论文聚焦于提升大模型的推理能力,提出了一种高效的训练方法以增强其在有限缓存下的推理表现。
Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs
Felix Fricke, Simon Malberg, Georg Groh
慕尼黑大学计算机、信息与技术学院,德国
10/10 2026-02-18 cs.AI PDF
诸如思维链(Chain of Thought)、思维树(Tree of Thoughts)和思维图(Graph of Thoughts)等提示方法可以显著增强大语言模型的推理能力。然而,现有方法通常需要用户定义静态且问题特定的推理结构,缺乏对动态或未见过的问题类型的适应性。此外,这些方法在超参数、提示、运行时和提示成本方面往往未得到充分优化。为了解决这些问题,我们提出了思维框架(Framework of Thoughts, FoT)——一种通用的基础框架,用于构建和优化动态推理方案。FoT内置了超参数调优、提示优化、并行执行和智能缓存等功能,释放了推理方案的潜在性能。我们通过在FoT中实现三种流行的方案(思维树、思维图和ProbTree),展示了FoT的能力。实验证明,FoT能够显著加快执行速度,降低成本,并通过优化实现更好的任务得分。我们发布了代码库,以促进未来动态高效推理方案的发展。
推理优化 动态推理框架 提示工程 LLM推理能力
论文聚焦于提升LLM的推理能力,提出动态优化的推理框架,直接对应reasoning主题。
Code
Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution
Nithin Sivakumaran, Shoubin Yu, Hyunji Lee, Yue Zhang, Ali Payani et al.
UNC Chapel Hill Nitin Sivakumaran - 沙拉克大学(Carnegie Mellon University)
10/10 2026-02-18 cs.CL PDF
思维链(CoT)推理有时无法准确反映大语言模型(LLM)的真实计算过程,这限制了其在解释LLM如何得出答案方面的实用性。此外,优化推理的忠实性与可解释性通常会降低任务性能。为了解决这一权衡并提高CoT的忠实性,我们提出了多听众推理执行(REMUL),一种多方强化学习方法。REMUL基于这样的假设:其他方能够跟随的推理轨迹将更加忠实。一个说话者模型生成推理轨迹,该轨迹被截断并传递给一组听众模型,这些模型“执行”轨迹并继续生成答案。说话者因生成清晰的推理轨迹而获得奖励,并通过掩码监督微调进行额外的正确性正则化,以应对忠实性与性能之间的权衡。在多个推理基准测试(BIG-Bench Extra Hard、MuSR、ZebraLogicBench和FOLIO)上,REMUL显著提升了三个忠实性指标——提示归因、早期回答面积曲线下面积(AOC)和错误注入AOC,同时提高了准确性。我们的分析发现,这些改进在训练领域中具有鲁棒性,转化为可读性提升,并且与更短、更直接的CoT相关。
chain-of-thought faithfulness multi-party learning reasoning trace reinforcement learning
论文聚焦于提升LLM推理过程的忠实性与性能,直接涉及推理能力的核心机制。
Code
Broken Chains: The Cost of Incomplete Reasoning in LLMs
Ian Su, Gaurav Purushothaman, Jey Narayan, Ruhika Goel, Kevin Zhu et al.
10/10 2026-02-16 cs.LG PDF
专门用于推理的模型如OpenAI的5.1版和DeepSeek-V3.2分配大量计算资源用于扩展的思维链(CoT)推理,但推理标记会带来显著成本。在标记数量受限的情况下,不同推理模式(代码、自然语言、混合或无)的表现如何?本文引入了一个框架,限制模型仅通过代码、注释、两者或都不进行推理,并系统性地将标记预算减少到最优值的10%、30%、50%和70%。我们在数学基准测试(AIME、GSM8K、HMMT)上评估了四个前沿模型(GPT-5.1、Gemini 3 Flash、DeepSeek-V3.2、Grok 4.1)。研究发现:(1)截断推理可能有害,DeepSeek-V3.2在无推理时达到53%,但在50%预算下使用截断CoT时仅为17%;(2)代码表现更为稳健,Gemini的注释在预算减少时完全失效,而代码仍保持43-47%;(3)混合推理表现不如单一模态;(4)鲁棒性依赖于模型,Grok在30%预算下仍保持80-90%,而OpenAI和DeepSeek则下降至7-27%。这些结果表明,不完整的推理链会主动误导模型,这对资源受限环境下部署专用推理系统具有重要意义。
推理能力 思维链 资源约束 模型比较 代码推理
论文核心研究LLM的推理能力,探讨不同推理模式在资源受限下的表现。
Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
William L. Tong, Ege Cakar, Cengiz Pehlevan
哈佛大学工程与应用科学学院 哈佛大学计算机实验室 哈佛大学脑科学中心
10/10 2026-02-16 cs.AI PDF
近年来,推理模型取得了显著进展,这些模型在生成最终输出前会生成中间推理痕迹(RTs)。尽管如此,我们对RTs如何支持推理以及该范式的局限性仍缺乏深入理解。为此,我们引入了PITA数据集,包含2300多万条命题逻辑语句及其对应的证明。作为鲁棒推理的基准,我们关注长度泛化问题:如果模型被训练用于判断固定长度证明的真假,它在面对需要更长证明的语句时表现如何?我们提出了任务深度和任务广度两个概念,分别衡量解决一个任务所需的步骤数和任务中唯一示例的数量。通过在PITA子集中调整这些参数,我们发现RT模型在广泛而浅层的任务上表现良好,但在狭窄而深层的任务上相比非RT基线模型性能下降。为了验证结果是否具有普遍性,我们将结果与基于三段论的简单合成任务进行比较。我们的理论表明,RT模型在深层任务上的性能存在根本性限制,同时突出了其在广域任务中的泛化优势。总体而言,我们的研究揭示了使用推理痕迹的基本优势和局限性。
推理模型 推理痕迹 长度泛化 任务拓扑 逻辑推理
论文聚焦于推理模型中的中间推理痕迹(RTs)及其对推理能力的影响,属于推理能力的核心研究。
Code
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
Gregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli, Moin Nabi
Apple
10/10 2026-02-16 cs.AI PDF
思维链(CoT)提示是一种从大型语言模型(LLMs)中激发类推理响应的标准技术,允许模型在给出最终答案前逐步说明推理过程。尽管其与人类推理的相似性显而易见,但支撑CoT推理成功的内在机制仍不清楚。本文通过深入分析来自竞赛级数学问题的CoT轨迹,旨在更好地理解哪些部分的CoT真正有助于得出最终答案。为此,我们引入了“势能”概念,用于量化CoT中某一部分如何提高正确完成的可能性。通过势能视角分析推理轨迹,我们发现了令人惊讶的模式,包括非单调性、尖锐但难以解释的峰值以及偶然猜测等现象。此外,我们还研究了CoT可迁移性,发现仅20%的部分CoT即可显著提升弱模型的性能,表明CoT的核心机制具有可迁移性。
Chain-of-thought Reasoning Dynamics LLM Analysis Potential Quantification CoT Transferability
论文核心研究CoT的推理机制及其对LLM推理能力的影响,直接涉及推理能力主题。
Diagnosing Pathological Chain-of-Thought in Reasoning Models
Manqing Liu, David Williams-King, Ida Caspary, Linh Le, Hannes Whittingham et al.
哈佛大学医学院,美国波士顿
10/10 2026-02-14 cs.AI PDF
思维链(Chain-of-Thought, CoT)推理是现代大语言模型(LLM)架构中的核心机制,也是AI安全的重要干预点。然而,CoT推理可能表现出一些称为‘病理’的失效模式,这些模式阻碍了其在监控中的实用性。先前的研究已识别出三种不同的病理:事后合理化(模型从预设答案反向生成看似合理的解释)、编码推理(中间步骤在表面上可解释的文本中隐藏信息)以及内化推理(模型在内部计算时用无意义的填充标记替代显式推理)。为了更好地理解和区分这些病理,本文提出了一组易于实现、计算成本低且任务无关的具体度量指标。为验证该方法,我们开发了一些专门训练以展示特定CoT病理的模型。本研究为评估CoT病理提供了实用工具包,并对训练过程中的监控具有直接意义。
chain-of-thought pathology detection LLM reasoning AI safety
论文聚焦于LLM的推理能力中的Chain-of-Thought(CoT)机制,分析其病理现象并提出评估方法。
Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen et al.
弗吉尼亚大学 Google
10/10 2026-02-13 cs.CL PDF
大型语言模型(LLMs)通过扩展推理时的计算量以实现长链思维(CoT)展现出卓越的推理能力。然而,近期研究表明,原始的token数量并不能可靠地反映推理质量:生成长度增加并不总是与准确性相关,反而可能表明“过度思考”,导致性能下降。在本研究中,我们通过识别深度思考标记(即在模型深层收敛前内部预测发生显著修订的标记)来量化推理时的努力。在四个具有挑战性的数学和科学基准测试(AIME 24/25、HMMT 25 和 GPQA-diamond)以及多种专注于推理的模型(GPT-OSS、DeepSeek-R1 和 Qwen3)上,我们发现深度思考比例(生成序列中深度思考标记的比例)与准确性之间存在稳健且一致的正相关关系,显著优于基于长度和置信度的基线方法。利用这一洞察,我们引入了Think@n策略,该策略优先处理深度思考比例高的样本,并通过基于短前缀提前拒绝无前途生成,显著降低了推理成本。
推理能力 深度思考标记 推理优化 生成质量评估
论文聚焦于LLM的推理能力,提出衡量推理努力的新指标并验证其有效性。
On-Policy Supervised Fine-Tuning for Efficient Reasoning
Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye et al.
香港科技大学
10/10 2026-02-13 cs.AI PDF
大型推理模型(LRMs)通常通过强化学习(RL)进行训练,以探索长链式推理,但这种方法计算成本较高。近期方法引入多奖励目标以联合优化正确性和简洁性,但这些复杂扩展常导致训练不稳定并产生次优权衡。本文重新审视这一目标,并质疑其复杂性的必要性。通过原理分析,我们发现该范式中存在根本性偏差:当正确性和长度可以直接验证时,KL正则化失去了其预期作用,且在多个奖励信号下,分组归一化变得模糊。通过移除这两项并简化奖励为基于截断的长度惩罚,我们将优化问题简化为对经过正确性和简洁性筛选的自生成数据进行监督微调。我们称此简化训练策略为基于策略的监督微调(on-policy SFT)。尽管简单,该方法始终定义了准确率-效率的帕累托前沿。它在保持原始准确率的同时将思维链长度减少高达80%,并在五个基准测试中超越了更复杂的基于强化学习的方法。此外,它显著提升了训练效率,减少了50%的GPU内存使用并加速了70%的收敛速度。
强化学习 监督微调 推理优化 模型效率 链式推理
论文聚焦于提升大模型的推理效率与准确性,直接涉及推理能力优化。
Code
Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models
Zesheng Hong, Jiadong Yu, Hui Pan
香港科技大学(广州)信息 hub
10/10 2026-02-13 cs.LG PDF
可验证奖励强化学习(RLVR)已成为在大型语言模型中植入严格推理能力的主流范式。然而,该方法存在系统性抑制有效但罕见推理路径的问题,本文将其理论化为“归一化挤压”现象。为应对这一问题,作者提出摊销推理树搜索(ARTS),通过解耦生成与验证过程,引入流匹配目标以估计概率流守恒,从而在稀疏、高熵搜索空间中实现稳健导航。实验表明,ARTS在MATH-500基准测试中达到74.6%的性能,接近完全微调策略的表现,并在长尾子集上显著恢复性能,证明了解耦验证与生成的有效性。
推理能力 概率流 流匹配 稀疏搜索空间 强化学习
论文聚焦于增强LLM的推理能力,提出解决稀有正确推理路径被抑制的问题,并通过ARTS方法提升复杂推理任务表现。
Evaluating Robustness of Reasoning Models on Parameterized Logical Problems
Naïm Es-sebbani, Esteban Marquer, Yakoub Salhi, Zied Bouraoui
CRIL, UMR 8188, Université d'Artois, CNRS, France Université de Caen Basse Normandie, France
10/10 2026-02-13 cs.AI PDF
逻辑为基于LLM的推理器提供了一个可控的测试环境,但标准SAT风格基准常常将表面难度(如长度、措辞、子句顺序)与决定可满足性的结构性现象混淆。本文引入了一个用于2-SAT的诊断基准,该基准由参数化的结构化2-CNF公式构建,其中可满足性由蕴含图表征,并可通过可解释的维度进行调整。生成器隔离了不同的能力与失败模式,包括可控大小和不平衡的矛盾循环UNSAT核心、具有预设自由变量比例的SAT实例、调节传播的植入骨干、探测对排序和修订敏感性的晚期桥接子句以及测试重命名和冗余结构下抽象能力的对称/复制变体。我们从决策准确性和赋值有效性两个方面评估基于LLM的推理器,并量化在语义保持扰动(如子句重新排序、填充子句和变量重命名)下的鲁棒性。结果显示,在固定表面统计信息的情况下,针对结构干预的性能出现显著变化,揭示了传统SAT准确率无法发现的脆弱性区域。
推理鲁棒性 逻辑问题 LLM评估 2-SAT 结构化测试
论文聚焦于评估LLM的推理能力,通过结构化逻辑问题测试其鲁棒性,直接对应reasoning主题。
Constraint-Rectified Training for Efficient Chain-of-Thought
Qinhang Wu, Sen Lin, Ming Zhang, Yingbin Liang, Ness B. Shroff
俄亥俄州立大学 休斯顿大学 谷歌
10/10 2026-02-13 cs.LG PDF
思维链(Chain-of-Thought, CoT)显著增强了大语言模型(LLMs)的推理能力,尤其是在结合基于强化学习(RL)的后训练方法时。虽然更长的推理过程可以提高答案质量并实现自我纠正等能力,但也带来了高推理成本和冗余步骤的问题,即过度思考。近期研究尝试通过长度感知奖励设计或提示校准来开发高效的推理策略,但这些启发式方法可能面临准确性严重下降和对超参数高度敏感的问题。为了解决这些问题,本文提出了一种基于参考引导约束优化的约束修正训练(Constraint-Rectified Training, CRT)框架,提供了一种更稳定且可解释的高效推理公式。CRT在性能低于参考值时交替最小化推理长度并修正准确性,从而稳定有效地剪枝冗余推理。进一步地,CRT采用两阶段训练方案,首先发现最短可靠的推理模式,然后在学习到的长度预算下优化准确性,防止冗长的CoT重新出现。全面评估表明,该框架在保持答案质量的同时一致减少了token使用量。进一步分析显示,CRT不仅通过缩短响应提高了推理效率,还通过减少内部语言冗余提升了效率,并引入了新的评估指标。此外,基于CRT的训练自然生成了一系列中间检查点,覆盖了不同解释长度但保持正确性的范围,使推理冗长程度的精细控制无需重新训练即可实现。
Chain-of-Thought 推理优化 约束训练 强化学习 语言模型效率
论文聚焦于提升LLM的推理效率,直接涉及Chain-of-Thought(CoT)机制及优化方法。
Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty
Zewei Yu, Lirong Gao, Yuke Zhu, Bo Zheng, Sheng Guo et al.
State Key Laboratory of Blockchain and Data Security, Zhejiang University MyBank, Ant Group Innovation and Management Center School of Software Technology (Ningbo), Zhejiang University
10/10 2026-02-12 cs.AI PDF
大推理模型(LRMs)通过测试时扩展在复杂推理任务中表现出色,但常生成过长的思考链,导致高计算开销和延迟。本文发现,问题复杂度增加会引发更多冗余反思,从而降低准确率并增加token消耗。为此,提出自适应反思和长度协调惩罚(ARLCP)框架,通过动态平衡推理效率与准确性,引入两个关键创新:一是自适应抑制冗余反思步骤,二是根据问题复杂度校准长度惩罚。实验表明,该方法在多个数学推理基准上显著提升了效率-准确率权衡。
推理优化 强化学习 效率-准确率权衡 数学推理
论文聚焦于提升LLM的推理效率与准确性,直接涉及推理机制优化。
Code
InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection
Xiuping Wu, Zhao Yu, Yuxin Cheng, Ngai Wong, Liangjun Ke et al.
University of Southampton
10/10 2026-02-12 cs.AI PDF
推理能力可以显著提升大语言模型(LLM)的性能。尽管近期的研究通过调整行为相关的提示来增强推理,但这些设计仍主要依赖直觉,缺乏对底层行为模式的系统分析。本文从行为模式的角度出发,探讨了模型在回答特定类型问题时推理行为的适应性分布,并发现结构化地注入这些模式可以显著影响模型推理过程和结果的质量。基于此,我们提出了两种无需参数更新的优化方法:InjectCorrect 和 InjectRLOpt。InjectCorrect 通过模仿模型自身过去正确答案中的行为模式来引导模型;InjectRLOpt 则从历史行为模式数据中学习价值函数,并通过提出的可靠性感知Softmax策略生成行为注入内容以引导推理过程。实验表明,这两种方法可以在不修改模型参数的情况下提升模型在多种推理任务中的表现,分别达到5.34%和8.67%的性能提升。
推理优化 行为模式注入 无参数微调 LLM推理增强
论文聚焦于LLM的推理行为优化,提出通过模式注入提升推理质量,属于推理能力的核心研究。
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces
Xin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley et al.
UC San Diego
10/10 2026-02-12 cs.AI PDF
近期研究通过在潜在空间中使用连续表示来替代显式推理轨迹以提高推理效率,但其效果因场景而异。分析表明,得出错误答案的推理轨迹中低置信度步骤较少,而多个低置信度推理路径的软嵌入可能引入并传播噪声,导致对不可靠推理轨迹的高置信度。受此启发,本文提出了一种推理时的置信度感知路由机制ThinkRouter,用于避免高置信度和噪声,从而实现更高效的推理。当模型置信度较低时,ThinkRouter将思考路由到离散标记空间,否则路由到潜在空间。在STEM推理和编程基准测试中,ThinkRouter在准确性方面优于显式思维链、随机路由和潜在推理基线,在Pass@1指标上平均提升了19.70分,同时减少了高达15.55%的生成长度。进一步分析表明,ThinkRouter能够校准来自显式思维链和潜在推理的误差,并通过全局降低模型置信度加速推理结束时的标记生成。
推理优化 置信度路由 潜在空间 离散空间 LLM推理
论文聚焦于推理效率提升,提出基于置信度的路由机制,直接针对LLM的推理能力优化。
scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery
Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu et al.
UC San Diego Texas A&M University
10/10 2026-02-12 cs.AI PDF
本文提出scPilot,首个系统性框架用于实践组学原生推理:大型语言模型(LLM)通过自然语言对话,直接检查单细胞RNA-seq数据和按需生物信息学工具。scPilot将核心单细胞分析任务(如细胞类型注释、发育轨迹重建和转录因子靶向)转化为需要模型逐步解决、解释并根据新证据修订的推理问题。为评估进展,作者发布了scBench,包含9个专家精心整理的数据集和评分器,以准确评估scPilot相对于各种LLM的组学原生推理能力。实验表明,迭代组学原生推理可提升细胞类型注释的平均准确率11%,Gemini-2.5-Pro相比一次性提示法可减少30%的轨迹图编辑距离,同时生成透明的推理过程以解释标记基因的模糊性和调控逻辑。通过将LLM扎根于原始组学数据,scPilot实现了可审计、可解释且具有诊断信息的单细胞分析。
单细胞分析 组学推理 LLM推理 生物信息学工具 任务分解
论文核心围绕LLM在单细胞数据分析中的推理能力展开,直接涉及推理机制与任务分解。
Code
Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
Yuanfu Wang, Zhixuan Liu, Xiangtian Li, Chaochao Lu, Chao Yang
上海人工智能实验室
10/10 2026-02-12 cs.LG PDF
当前训练大型推理模型的主流范式结合了监督微调(SFT)与基于可验证奖励的强化学习(RLVR),但其依赖高质量的人工标注推理数据和外部验证器,导致数据收集成本高、存在人类认知偏见,并限制了强化学习阶段的应用范围。为克服这些限制,本文提出了一种新的训练框架NRT(原生推理训练),该框架通过仅使用标准问答对让模型自动生成推理过程,从而无需专家编写的示例。NRT将推理过程视为潜在变量,采用统一的训练目标,将推理建模为优化问题,内在奖励那些提高模型生成正确答案可能性的路径。实验表明,NRT在无需验证器的方法中表现最佳,显著优于传统SFT基线和先前的无验证强化学习方法,在复杂推理任务中表现出色且具有较高的鲁棒性。
推理训练 无验证学习 自生成推理 语言模型优化
论文核心研究如何训练模型进行复杂推理,提出NRT框架以提升模型在无验证数据下的推理能力。
Canvas-of-Thought: Grounding Reasoning via Mutable Structured States
Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun et al.
中国科学院大学 北京大学 纽约大学 威斯康星大学
10/10 2026-02-11 cs.CL PDF
尽管Chain-of-Thought(CoT)提示方法显著提升了多模态大语言模型(MLLMs)的推理能力,但仅依赖线性文本序列在复杂任务中仍存在瓶颈。本文观察到,即使在辅助视觉元素被交错使用时,它们通常也被视为一维、无结构推理链中的静态快照。我们提出,现有方法将推理历史视为不可变的流:纠正局部错误需要生成冗长的下游修正或重新生成整个上下文,这迫使模型隐式地维护和跟踪状态更新,显著增加了token消耗和认知负担。这一限制在高维领域(如几何和SVG设计)尤为明显,因为CoT的文本表达缺乏显式的视觉指导,进一步限制了模型的推理精度。为弥补这一差距,我们引入了Canvas-of-Thought(Canvas-CoT)。通过利用HTML Canvas作为外部推理基质,Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订,使模型能够显式维护“真实状态”。此外,我们集成了一个基于渲染的批评循环,作为硬约束验证器,提供显式视觉反馈,以解决仅靠文本难以描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明,Canvas-CoT显著优于现有基线,确立了一种新的上下文高效多模态推理范式。
multimodal reasoning canvas-based reasoning context-efficient visual feedback chain-of-thought
论文核心聚焦于提升LLM的推理能力,提出Canvas-CoT架构以改进复杂任务中的推理效率与精度。
Towards Autonomous Mathematics Research
Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi et al.
Google DeepMind
10/10 2026-02-10 cs.LG PDF
近年来基础模型的进步使得推理系统能够在国际数学奥林匹克竞赛中达到金牌水平。然而,从竞赛级问题解决转向专业研究需要处理大量文献并构建长期证明。本文介绍了Aletheia,一个能够端到端生成、验证和修订解决方案的数学研究代理。Aletheia基于改进版Gemini Deep Think模型,采用新的推理时间扩展定律,并通过工具使用应对数学研究的复杂性。我们展示了Aletheia从奥数问题到博士级别的练习能力,并实现了多个AI辅助数学研究的重要里程碑,包括完全由AI生成的研究论文、人机协作证明粒子系统边界以及对700个开放问题的半自主评估。为帮助公众理解AI与数学的发展,我们建议量化AI辅助成果的自主性和新颖性,并提出人机交互卡片的概念以提高透明度。
数学推理 AI研究代理 自然语言处理 自主研究
论文核心聚焦于LLM在数学推理与研究中的应用,涉及复杂推理、证明生成及自主研究能力。
Code
Chain of Mindset: Reasoning with Adaptive Cognitive Modes
Tianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li et al.
PKU BJTU SUFE NUS
10/10 2026-02-10 cs.AI PDF
人类解决问题时从不依赖单一的认知模式,而是整合多种模式完成任务。然而现有LLM推理方法通常采用固定模式,忽视了不同阶段需要不同的认知方式。为此,本文提出Chain of Mindset(CoM)框架,一种无需训练的智能代理系统,实现步骤级自适应认知模式调度。该框架将推理分解为四种功能异构的认知模式:空间、聚合、发散和算法。一个元代理根据推理状态动态选择最优模式,双向上下文门控机制过滤跨模块信息流以保持效率与效果。实验表明,CoM在多个基准测试中达到最先进水平,显著优于现有基线模型。
推理能力 认知模式 自适应推理 LLM架构 多模态推理
论文核心聚焦于LLM的推理能力,提出基于不同认知模式的自适应推理框架。
Code
ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman
马萨诸塞大学阿默斯特分校
10/10 2026-02-10 cs.AI PDF
大型推理模型(LRMs)通过生成长链式推理实现最先进的性能,但常常在正确答案已得出后仍浪费计算资源进行冗余推理。本文提出了一种名为ESTAR的早期停止词感知推理方法,旨在检测并减少此类冗余推理以提高效率而不牺牲准确性。该方法结合了基于轨迹的分类器以识别安全停止推理的时间点、监督微调以训练LRMs自动生成信号,以及基于的强化学习以在自动生成的停止点截断推理过程,并使用计算感知奖励机制。在四个推理数据集上的实验表明,ESTAR将推理长度减少了约3.7倍(从4,799降至1,290),同时保持了准确率(74.9% vs. 74.2%),并且具有较强的跨领域泛化能力。这些结果突显了早期停止作为提升LRMs推理效率的一种简单而强大的机制。
推理优化 早期停止 计算效率 大语言模型
论文聚焦于提升大模型推理效率,直接涉及推理过程中的冗余检测与优化。
Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning
Jinsong Liu, Yuhang Jiang, Ramayya Krishnan, Rema Padman, Yiye Zhang et al.
美国康奈尔大学医学院,康奈尔大学,纽约,美国 印第安纳大学健康数据科学系,印第安纳大学,美国 美国匹兹堡大学信息与公共政策学院,匹兹堡大学,美国 美国卡内基梅隆大学信息与公共政策学院,卡内基梅隆大学,匹兹堡,美国
10/10 2026-02-10 cs.AI PDF
临床决策支持不仅需要正确答案,还需要具有临床有效性的推理过程。本文提出了一种差分推理学习(DRL)框架,通过从参考推理依据(如医生撰写的临床依据、临床指南或更强大模型的输出)和代理的自由形式思维链(CoT)中提取推理图,并基于临床加权图编辑距离(GED)进行差异分析,从而提高临床代理的推理能力。一个作为法官的LLM对语义等价节点进行对齐并诊断图之间的差异。这些图级别的差异诊断被转换为自然语言指令,并存储在差分推理知识库(DR-KB)中。在推理阶段,通过检索增强生成(RAG)方法检索前k条指令以增强代理提示,修补可能的逻辑漏洞。在开放医学问答基准和内部临床数据的再入院预测任务上的评估表明,该方法优于基线,在最终答案准确性和推理一致性方面均有提升。消融实验进一步验证了引入参考推理依据和前k检索策略的有效性。临床医生对输出的审查也提供了额外的保障。结果表明,DRL能够支持复杂推理场景下的更可靠的临床决策,并提供一种在有限token预算下部署的实用机制。
临床代理 推理增强 图编辑距离 检索增强生成 医疗问答
论文核心围绕临床代理的推理能力改进,提出差分推理学习框架以提升推理准确性与合理性。
GHS-TDA: A Synergistic Reasoning Framework Integrating Global Hypothesis Space with Topological Data Analysis
Jiaquan Zhang, Chaoning Zhang, Shuxu Chen, Xudong Wang, Zhenzhen Huang et al.
University of Electronic Science and Technology of China Kyung Hee University The Hong Kong Polytechnic University
10/10 2026-02-10 cs.AI PDF
思维链(CoT)已被证明能显著提升大语言模型(LLMs)在复杂任务中的推理准确性。然而,由于其自回归、逐步生成的范式,现有CoT方法存在两个根本性限制。首先,推理过程对早期决策高度敏感:一旦引入初始错误,它倾向于在后续步骤中传播和放大,而缺乏全局协调和修正机制使得此类错误难以纠正,最终导致推理链扭曲。其次,当前CoT方法缺乏结构化分析技术来过滤冗余推理并提取关键推理特征,从而导致推理过程不稳定且可解释性有限。为了解决这些问题,我们提出了GHS-TDA。GHS-TDA首先构建一个语义丰富的全局假设图,以聚合、对齐和协调多个候选推理路径,从而在局部推理失败时提供替代的全局修正路径。然后,它基于持久同调的拓扑数据分析技术,捕捉稳定的多尺度结构,去除冗余和不一致性,并提取更可靠的推理骨架。通过联合利用推理多样性和拓扑稳定性,GHS-TDA实现了自适应收敛,生成高置信度和可解释的推理路径,并在多个推理基准测试中始终优于强大的基线方法,在准确性和鲁棒性方面表现优异。
Chain-of-Thought Topological Data Analysis Reasoning Accuracy Global Hypothesis Space
论文聚焦于提升LLM的推理能力,提出GHS-TDA框架解决CoT方法中的核心问题。
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei et al.
P1 Team, Shanghai AI Laboratory
10/10 2026-02-10 cs.AI PDF
从符号操作到科学级推理是大型语言模型(LLMs)的关键前沿,而物理学作为将抽象逻辑与物理现实绑定的关键测试点。物理问题要求模型保持与宇宙法则的一致性,这需要多模态感知来支撑抽象逻辑。在奥林匹克级别,图表通常是构成性的而非说明性的,包含文本中缺失的边界条件和空间对称性等关键约束。为弥合这一视觉-逻辑差距,我们引入了P1-VL,一套专为高级科学推理设计的开源视觉-语言模型。我们的方法融合了课程强化学习和智能体增强技术,实现推理过程中的迭代自验证。在HiPhO基准测试中,我们的旗舰模型P1-VL-235B-A22B成为首个获得12枚金牌的开源视觉语言模型,并在开放源代码模型中达到最先进水平。我们的智能体增强系统在全球排名第二,仅落后于Gemini-3-Pro。除了物理领域,P1-VL还展示了卓越的科学推理能力和泛化能力,在STEM基准测试中显著优于基础模型。通过开源P1-VL,我们迈出了通用物理智能的基础一步,以更好地将视觉感知与抽象物理定律对齐,推动机器科学发现。
科学推理 视觉-语言模型 物理智能 课程强化学习 智能体增强
论文聚焦于物理竞赛中的科学推理,强调视觉感知与抽象逻辑的结合,属于推理能力的核心研究。
Code
Effective Reasoning Chains Reduce Intrinsic Dimensionality
Archiki Prasad, Mandar Joshi, Kenton Lee, Mohit Bansal, Peter Shaw
UNC Chapel Hill IIT Bombay
10/10 2026-02-09 cs.CL PDF
思维链(CoT)推理及其变体显著提升了语言模型在复杂推理任务中的表现,但不同策略如何促进泛化的具体机制仍不明确。当前解释通常指向测试时计算量的增加或结构指导,但建立这些因素与泛化之间的定量联系仍具挑战性。本文提出内在维度作为衡量推理链有效性的量化指标,该指标量化了完成特定任务达到一定准确率所需的最小模型维度。通过固定模型架构并改变任务表述方式,我们发现有效的推理策略能持续降低任务的内在维度。在GSM8K数据集上使用Gemma-3 1B和4B验证后,观察到推理策略的内在维度与其在分布内和分布外数据上的泛化性能之间存在强负相关。我们的研究结果表明,有效的推理链通过更高效地压缩任务参数来促进学习,为分析推理过程提供了新的量化度量。
推理链 内在维度 任务泛化 量化分析
论文核心研究推理链对任务泛化能力的影响,直接关联推理能力主题。
Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models
Mingzi Cao, Xingwei Tan, Mahmud Elahi Akhter, Marco Valentino, Maria Liakata et al.
North South university Queen Mary University of London
10/10 2026-02-09 cs.CL PDF
演绎、归纳和溯因是人类逻辑思维的核心推理范式。尽管提升大型语言模型(LLM)的推理能力已引起大量研究关注,但这些基本范式在诱导泛化能力方面的系统性探索仍显不足。本研究探讨了这些核心推理范式之间的相互作用如何影响LLM的推理行为。为此,我们首先从符号任务中收集了一组新的推理轨迹数据集,每个任务针对三种基本范式之一,并抽象出具体世界知识。随后,我们研究了将这些技能有效引入LLM的方法,包括简单的微调以及更复杂的增加模型深度或将密集模型转换为专家混合模型的方法。我们在完全以自然语言表述且包含现实世界知识的真实领域外任务上对诱导模型进行了全面评估。结果表明,我们的方法在多个真实任务中实现了显著的性能提升(最高达14.60)。
推理范式 语言模型 领域外泛化 模型微调 专家混合模型
论文核心研究了演绎、归纳和溯因三种基本推理范式对LLM推理能力的影响,直接对应reasoning主题。
Characterizing, Evaluating, and Optimizing Complex Reasoning
Haoran Zhang, Yafu Li, Zhi Wang, Zhilin Wang, Shunkai Zhang et al.
10/10 2026-02-09 cs.CL PDF
大型推理模型(LRMs)越来越多地依赖具有复杂内部结构的推理轨迹。然而,现有研究缺乏对三个基本问题的统一答案:(1)什么是高质量的推理;(2)如何可靠地评估长且隐式结构化的推理轨迹;(3)如何利用这些评估信号进行推理优化。为了解决这些挑战,本文提供了一个统一的视角。(1)引入ME$^2$原则,从宏观和微观层面定义推理质量的效率与效果。(2)基于该原则,将推理轨迹建模为有向无环图(DAG),并开发了一种基于DAG的成对评估方法,以捕捉复杂的推理结构。(3)基于此方法,构建了TRM-Preference数据集,并训练了一个思考奖励模型(TRM),用于大规模评估推理质量。实验表明,思考奖励可以作为有效的优化信号。在测试时,选择更优的推理路径可带来更好的结果(最高提升19.3%),在强化学习训练过程中,思考奖励也能提升推理能力和性能(跨多种任务最高提升3.9%)。
推理评估 DAG建模 奖励模型 复杂推理优化
论文聚焦于推理质量的定义、评估与优化,直接对应reasoning主题。
Code
Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning
Milan Ganai, Katie Luo, Jonas Frey, Clark Barrett, Marco Pavone
Stanford University NVIDIA
10/10 2026-02-09 cs.RO PDF
具身思维链(CoT)推理显著提升了视觉-语言-动作(VLA)模型的性能,但现有方法依赖于固定的模板来指定推理原语(如场景中的物体、高层计划、结构可操作性)。这些模板可能导致策略处理无关信息,从而干扰关键动作预测信号。本文提出R&B-EnCoRe方法,通过自监督精炼从互联网规模知识中引导具身推理。该方法将推理视为重要加权变分推断中的潜在变量,无需外部奖励、验证器或人工标注即可生成并提炼出特定具身策略的推理训练数据集。实验在多种具身系统(如机械臂、腿部导航、自动驾驶)上验证了该方法的有效性,结果显示其在操作成功率、导航得分和碰撞率等指标上均有显著提升。
具身推理 自监督学习 动作预测 VLA模型 变分推断
论文核心聚焦于具身推理的自监督引导,直接涉及推理机制与策略优化。
Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning
Jiahui Zhou, Dan Li, Boxin Li, Xiao Zhang, Erli Meng et al.
10/10 2026-02-08 cs.AI PDF
时间序列是一种广泛存在于各类应用领域的数据类型,合理解决多样化的时间序列任务一直是长期目标。近年来,大型语言模型(LLMs)在强化学习(RL)推动下的推理能力取得进展,为需要长链推理(CoT)的任务提供了新机遇。然而,利用LLM进行时间序列推理仍处于初级阶段,受限于缺乏精心构建的时间序列CoT训练数据、数据调度效率低下以及缺乏专门针对此类数据的RL算法。本文提出VeriTime框架,通过数据合成、数据调度和RL训练来定制LLM以实现时间序列推理。首先,我们设计了一种数据合成流程,构建了一个带有可验证过程注释的时序-文本多模态数据集。其次,我们设计了一种数据调度机制,根据难度层次和任务分类安排训练样本。最后,我们开发了一种两阶段强化微调方法,利用可验证的过程级CoT数据,采用细粒度、多目标奖励机制。大量实验表明,VeriTime显著提升了LLM在多种时间序列推理任务中的表现。值得注意的是,它使3B、4B规模的紧凑模型能够达到或超越更大专有LLM的推理能力。
时间序列推理 强化学习 数据合成 LLM微调 CoT
论文核心聚焦于LLM的推理能力提升,特别是针对时间序列任务的推理过程优化。
When to Trust the Cheap Check: Weak and Strong Verification for Reasoning
Shayan Kiyani, Sima Noorani, George Pappas, Hamed Hassani
宾夕法尼亚州立大学
9/10 2026-02-19 cs.LG PDF
随着大语言模型(LLM)在更广泛的验证循环中进行推理,系统内部使用诸如自一致性或代理奖励等低成本检查(称为弱验证),而外部用户则通过反馈对输出进行审查以确保结果可信(称为强验证)。这两种验证方式在成本和可靠性上存在显著差异。本文通过形式化弱-强验证策略,决定何时接受或拒绝基于弱验证的结果,以及何时转为强验证。我们引入了衡量错误接受、错误拒绝和强验证频率的指标,并证明最优策略具有双阈值结构。此外,我们开发了一种在线算法,在无需假设查询流、语言模型或弱验证器的前提下,可有效控制接受和拒绝错误。
验证机制 推理可靠性 弱验证 强验证 错误控制
论文聚焦于LLM的推理过程中的验证机制,涉及弱验证与强验证策略,直接关联推理能力的可靠性与优化。
Code
MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu et al.
复旦大学 清华大学 美团
9/10 2026-02-19 cs.LG PDF
现有的基于可验证奖励的强化学习(RLVR)算法,如GRPO,依赖于僵化、统一且对称的信任区域机制,这与大型语言模型(LLMs)复杂的优化动态存在根本性不匹配。本文识别出这些方法中的三个关键挑战:(1)由于硬截断的二值截止导致的梯度利用效率低下;(2)因忽略词元分布而产生的概率质量不敏感;(3)正负样本之间信用分配模糊性差异导致的信号可靠性不对称。为弥合这些差距,我们提出了质量自适应软策略优化(MASPO),一个统一框架,旨在协调这三个维度。MASPO集成了可微分的软高斯门控以最大化梯度效用,质量自适应限制器以平衡概率谱上的探索,并非对称风险控制器以使更新幅度与信号置信度一致。大量实验表明,MASPO是一个强大且一体化的RLVR解决方案,显著优于现有基线。
强化学习 LLM推理 RLVR 梯度优化 概率质量控制
论文聚焦于提升LLM的推理能力,提出改进RLVR算法以增强推理鲁棒性和样本效率。
Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar
印度理工学院技术学院,印度阿萨姆邦古瓦哈提
9/10 2026-02-19 cs.AI PDF
在多智能体信息检索(IR)流水线中,基于LLM的代理通过交换中间推理(即思维链,Chain-of-Thought,CoT)来完成搜索和排序等任务。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的评估指标:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。实验在五个基准上测试了四个Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确率无显著相关性,揭示了当前基于准确率的推理能力排行榜存在盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。
Chain-of-Thought 推理评估 多智能体系统 LLM评估
论文聚焦于Chain-of-Thought(CoT)推理的质量评估,直接涉及LLM/Agent的推理能力。
MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions
Hui Min Wong, Philip Heesen, Pascal Janetzky, Martin Bendszus, Stefan Feuerriegel
LMU Munich, Munich, Germany Munich Center for Machine Learning, Germany Department of Neuroradiology, Heidelberg University, Heidelberg, Germany
9/10 2026-02-19 cs.AI PDF
大型语言模型(LLMs)在医学诊断任务中的应用日益增多。在临床实践中,正确的诊断通常无法仅从初始患者表现中直接得出,而需要通过系统性病史采集和迭代提问来排除多种潜在疾病并解决不确定性。本文提出MedClarify,一种信息寻求型AI代理,能够生成后续问题以支持诊断决策。该代理首先计算类似鉴别诊断的候选诊断列表,然后主动生成旨在减少诊断不确定性的后续问题。通过选择预期信息增益最高的问题,MedClarify实现了有针对性、基于不确定性的推理,从而提升诊断性能。实验表明,与标准单次提示LLM基线相比,该方法可将诊断错误率降低约27个百分点。
医学诊断 信息增益 AI代理 推理能力 对话式AI
论文核心聚焦于通过生成后续问题进行诊断推理,属于推理能力的典型应用。
Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy
Bianca Raimondi, Maurizio Gabbrielli
意大利博洛尼亚大学
9/10 2026-02-19 cs.AI PDF
大型语言模型(LLMs)的黑箱特性要求超越表面性能指标的新评估框架。本研究采用布卢姆分类法作为分层视角,探讨LLM内部神经表示中的认知复杂性。通过分析不同LLM的高维激活向量,我们检验了从基本回忆(Remember)到抽象综合(Create)的不同认知层级是否在模型残差流中线性可分。结果表明,线性分类器在所有布卢姆层级上均达到约95%的平均准确率,证明认知层级编码在模型表示的线性可访问子空间中。这些发现表明,模型在前向传播早期就解决了提示的认知难度,且随着层数增加,表示逐渐变得可分离。
认知层级 线性探测 布卢姆分类法 神经表示 可解释性
论文通过Bloom分类法研究LLM的认知复杂性,直接涉及推理能力的层级分析。
Continual learning and refinement of causal models through dynamic predicate invention
Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach
布里斯托大学
9/10 2026-02-19 cs.AI PDF
在复杂环境中高效导航需要智能体理解其世界的底层逻辑,但传统世界建模方法常面临样本效率低、透明度不足和可扩展性差的问题。本文提出一种框架,通过将连续模型学习与修复集成到智能体的决策循环中,利用元解释学习和谓词发明技术,发现语义上有意义且可复用的抽象概念,从而构建解耦的高质量概念层次结构。实验表明,该方法在具有复杂关系动态的领域中表现优异,样本效率远超基于PPO神经网络的基准方法。
因果推理 符号学习 持续学习 谓词发明 抽象概念构建
论文聚焦于因果模型的持续学习与推理,涉及符号逻辑和抽象概念构建,属于推理能力的核心研究。
Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering
Kishan Maharaj, Nandakishore Menon, Ashita Saxena, Srikanth Tamilselvam
IBM Research
9/10 2026-02-19 cs.SE PDF
随着大型语言模型(LLMs)在需要处理长代码上下文的软件工程任务中应用日益广泛,其在不同输入条件下的鲁棒性仍不明确。本文通过受控消融实验系统研究了长上下文代码问答任务,测试模型对答案格式、干扰项和上下文规模的敏感性。我们扩展了LongCodeBench Python数据集,新增COBOL和Java的问答集,并在三种设置下评估了最先进的模型:(i)打乱的多选选项,(ii)开放性问题,以及(iii)包含相关和对抗性无关信息的“针在 haystack”上下文。结果表明,在打乱的多选选项和开放性问题中,模型性能显著下降,并且在存在无关线索时表现出脆弱性。我们的研究揭示了当前长上下文评估的局限性,并为评估遗留系统和现代系统的代码推理能力提供了更广泛的基准。
代码理解 长上下文推理 模型鲁棒性 软件工程
论文聚焦于LLM在长上下文代码问答中的推理鲁棒性,直接涉及推理能力评估与挑战。
BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
Yunseung Lee, Subin Kim, Youngjun Kwak, Jaegul Choo
KakaoBank Corp. South Korea Advanced Institute of Science and Technology
9/10 2026-02-19 cs.CL PDF
基于大语言模型(LLMs)的聊天机器人在金融领域,特别是在数字银行中被广泛应用,以处理客户关于存款、储蓄和贷款等产品的咨询。然而,这些模型在核心银行业务计算任务中仍表现出较低的准确性,例如总支付估算、不同利率产品的比较以及提前还款条件下的利息计算。此类任务需要多步骤的数值推理和对银行产品的上下文理解,但现有LLMs常出现系统性错误,如误解产品类型、错误应用条件或基本计算失误。为解决这一问题,本文提出了BankMathBench,一个反映真实银行业务任务的领域特定数据集。该数据集分为三个难度级别:基础、中级和高级,分别对应单一产品推理、多产品比较和多条件场景。实验表明,使用BankMathBench进行训练后,开源LLMs在公式生成和数值推理准确性方面均有显著提升,证明了该数据集在增强领域特定推理能力方面的有效性。
数值推理 银行场景 LLM基准测试 多步骤推理
论文聚焦于LLM在银行场景中的数值推理能力,提出专门的基准测试,属于推理能力的核心研究。
ReIn: Conversational Error Recovery with Reasoning Inception
Takyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma et al.
伊利诺伊大学厄巴纳-香槟分校 亚马逊
9/10 2026-02-19 cs.CL PDF
由大型语言模型(LLMs)驱动并集成工具的对话代理在固定任务导向型对话数据集上表现出色,但在面对用户引发的意外错误时仍存在脆弱性。本文不关注错误预防,而是聚焦于错误恢复,需要准确诊断错误对话上下文并执行适当的恢复计划。在无法进行模型微调或提示修改的现实约束下,本文探索代理是否能从上下文有缺陷的交互中恢复,并如何在不改变模型参数和提示的情况下调整其行为。为此,本文提出了一种测试时干预方法——推理起始(ReIn),通过在代理的决策过程中植入初始推理来实现错误恢复。具体而言,一个外部起始模块识别对话上下文中的预定义错误并生成恢复计划,随后将其整合到代理的内部推理过程中以指导纠正操作,而无需修改其参数或系统提示。通过系统模拟直接阻碍用户目标完成的对话失败场景(如用户的模糊和不支持请求),ReIn在多种代理模型和起始模块组合中显著提升了任务成功率,并泛化到未见过的错误类型。此外,它始终优于显式提示修改方法,证明了其作为高效、实时方法的实用性。对其实现机制的深入分析表明,与ReIn联合定义恢复工具可作为一种安全有效的策略,用于提升对话代理的鲁棒性,而无需修改主干模型或系统提示。
对话代理 错误恢复 推理机制 测试时干预 非参数调整
论文核心围绕推理机制展开,提出基于推理的对话错误恢复方法ReIn。
Code
Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History
Serin Kim, Sangam Lee, Dongha Lee
韩国科学技术院(KAIST)计算机科学与工程系
9/10 2026-02-19 cs.CL PDF
大型语言模型已推动了网络代理的发展,但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节,实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战,我们提出了Persona2Web,这是首个用于评估真实开放网络中个性化网络代理的基准测试,基于澄清以实现个性化的原理,要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包括:(1)揭示长期跨度内隐含偏好的用户历史;(2)需要代理推断隐含用户偏好的模糊查询;(3)一个注重推理的评估框架,支持对个性化的细粒度评估。我们在多种代理架构、主干模型、历史访问方案以及不同模糊程度的查询上进行了广泛实验,揭示了个性化网络代理行为中的关键挑战。为保证可复现性,我们的代码和数据集已公开在https://anonymous.4open.science/r/Persona2Web-73E8。
个性化代理 上下文推理 用户历史建模 模糊查询处理 基准测试
论文聚焦于基于用户历史的上下文推理,强调个性化代理在模糊查询下的推理能力,属于推理能力的核心研究。
Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency
Victoria Lin, Xinnuo Xu, Rachel Lawrence, Risa Ueno, Amit Sharma et al.
剑桥大学计算机科学系 微软研究院
9/10 2026-02-18 cs.LG PDF
尽管大型语言模型(LLMs)在推理基准测试中表现出色,但它们在面对反事实问题时表现脆弱,表明其因果推理能力存在不足。虽然近期研究表明标注的反事实任务可以作为LLMs因果推理能力的基准,但生成足够规模的反事实数据以覆盖潜在空间仍面临挑战。本文提出了一种轻量级的推理时方法——双重反事实一致性(DCC),用于衡量和引导LLMs进行因果推理的能力。无需标注的反事实数据,DCC验证了模型执行因果推理两个关键要素的能力:因果干预和反事实预测。通过DCC,我们评估了多种领先LLMs在不同推理任务和干预下的因果推理能力,并展示了DCC作为训练无关的测试时拒绝采样标准的有效性,证明其可直接提升多个模型家族在推理任务中的性能。
因果推理 反事实一致性 推理评估 LLM优化
论文聚焦于因果推理能力的评估与提升,直接涉及LLM的推理机制。
Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents
Wenxuan Ding, Nicholas Tomlin, Greg Durrett
New York University
9/10 2026-02-18 cs.CL PDF
随着大型语言模型(LLMs)被用于解决需要与环境交互以获取信息的复杂问题,如何在停止探索并提交答案时权衡成本与不确定性成为关键。本文提出了一种名为Calibrate-Then-Act(CTA)的框架,使LLM能够显式地推理成本-不确定性权衡,并据此进行更优的环境探索。该方法将信息检索和编程等任务形式化为不确定性下的顺序决策问题,并通过引入先验环境状态作为上下文输入,提升LLM的决策质量。实验结果表明,在信息检索问答和简化编程任务中,CTA显著提高了代理发现最优决策策略的能力。
cost-aware reasoning sequential decision-making LLM agents environment interaction
论文核心研究LLM在不确定环境中的成本-不确定性权衡推理机制,属于推理能力的直接应用。
Code
SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation
Jaid Monwar Chowdhury, Chi-An Fu, Reyhaneh Jabbarvand
孟加拉国达卡工程技术大学 台湾台北国立台湾大学 美国伊利诺伊大学厄巴纳-香槟分校
9/10 2026-02-18 cs.SE PDF
由于高级程序意图与指针运算和手动内存管理的严格语法约束之间存在语义差距,C语言的自动化单元测试生成仍是一个重大挑战。尽管大语言模型(LLMs)具有强大的生成能力,但直接从意图生成代码常常导致代码生成失败,即模型在未充分理解程序结构、约束和语义的情况下提前生成代码,从而产生无法编译的测试用例、幻觉函数签名、分支覆盖率低以及语义无关的断言等问题。本文提出SPARC,一个基于神经符号系统的情景化框架,通过四个阶段解决这一问题:(1)控制流图(CFG)分析,(2)操作映射以将LLM推理锚定在验证过的实用工具中,(3)路径导向的测试合成,(4)使用编译器和运行时反馈的迭代自校正验证循环。我们在59个现实世界和算法主题上评估了SPARC,其行覆盖率比基线方法提高了31.36%,分支覆盖率提高了26.01%,突变得分提高了20.78%,在复杂主题上的表现可与符号执行工具KLEE相媲美。SPARC通过迭代修复保留了94.3%的测试用例,并生成了开发者评分更高的可读性和可维护性代码。通过将LLM推理与程序结构对齐,SPARC为工业级遗留C代码库的测试提供了一条可扩展的路径。
LLM推理 单元测试生成 神经符号系统 路径覆盖 C语言测试
论文核心围绕LLM的推理能力,通过结构化分析和路径生成提升测试生成质量。
Retrieval Augmented Generation of Literature-derived Polymer Knowledge: The Example of a Biodegradable Polymer Expert System
Sonakshi Gupta, Akhlak Mahmood, Wei Xiong, Rampi Ramprasad
佐治亚理工学院计算科学与工程学院 佐治亚理工学院材料科学与工程学院
9/10 2026-02-18 cs.CE PDF
聚合物文献中包含大量实验知识,但这些知识通常以非结构化文本和不一致术语的形式存在,使得系统性检索和推理变得困难。现有工具通常仅能提取孤立的、研究特定的事实,无法保留回答更广泛科学问题所需的跨研究上下文。检索增强生成(RAG)通过结合大语言模型(LLMs)与外部检索提供了一种有前景的解决方案,但其效果高度依赖领域知识的表示方式。本文开发了两种检索流程:一种是基于密集语义向量的方法(VectorRAG),另一种是基于图的方法(GraphRAG)。利用超过1000篇聚羟基烷酸酯(PHA)论文,我们构建了保留上下文的段落嵌入和一个支持实体消歧和多跳推理的规范化结构化知识图谱。通过标准检索指标、与通用最先进系统如GPT和Gemini的比较以及领域化学家的定性验证,评估了这些流程。结果表明,GraphRAG在精度和可解释性方面表现更好,而VectorRAG提供了更广泛的召回率,突显了互补性的权衡。专家验证进一步确认,定制化的流程,尤其是GraphRAG,能够生成具有坚实依据、引用可靠的响应,并具有较强的领域相关性。通过将每一条陈述都基于证据,这些系统使研究人员能够浏览文献、比较不同研究的结果并发现难以手动提取的模式。更广泛地说,这项工作建立了一个实用框架,用于使用精选语料库和检索设计构建材料科学助手,减少对专有模型的依赖,同时实现大规模可信的文献分析。
RAG 知识图谱 多跳推理 材料科学 文献分析
论文聚焦于通过RAG增强LLM的推理能力,特别是针对材料科学领域的知识提取与多跳推理。
From Growing to Looping: A Unified View of Iterative Computation in LLMs
Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer
Technical University of Munich Google, Paradigms of Intelligence Team
9/10 2026-02-18 cs.CL PDF
循环(reusing a block of layers across depth)和深度增长(depth growing,通过复制中间层训练浅到深模型)均与更强的推理能力相关,但其关系尚不明确。本文提供了一种机制性统一:循环和深度增长模型在深度方向上表现出收敛的特征,包括对后期层的依赖增加以及与循环或增长块对齐的重复模式。这些共享特征支持了它们的增益来源于共同形式的迭代计算的观点。基于这一联系,我们展示了这两种技术具有适应性和可组合性:将推理时的循环应用于深度增长模型的中间块,可在某些推理原语上将准确率提高至原来的2倍,尽管该模型从未被训练为循环。此外,这两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外,使用更高质量、数学密集型的冷却混合物时,深度增长模型能获得最大的推理增益,这可以通过适配中间块进行循环进一步增强。总体而言,我们的结果将深度增长和循环定位为互补且实用的方法,用于诱导和扩展迭代计算以提升推理能力。
LLM 推理能力 迭代计算 深度增长 循环结构
论文聚焦于LLM的迭代计算机制,直接关联到推理能力提升,是推理能力研究的核心内容。
Learning to Learn from Language Feedback with Social Meta-Learning
Jonathan Cook, Diego Antognini, Martin Klissarov, Claudiu Musat, Edward Grefenstette
Google DeepMind
9/10 2026-02-18 cs.CL PDF
大型语言模型(LLMs)在对话环境中往往难以从纠正性反馈中学习。它们很少主动寻求此类反馈,即使在存在歧义的情况下,这使得对话显得静态、单向且缺乏人类对话的适应性。为了解决这些限制,本文借鉴了人类社会元学习(SML)的概念——即学习如何从他人那里学习的过程。我们将SML形式化为一种微调方法,训练LLMs在模拟教学对话中主动寻求并学习语言反馈,将静态任务转化为互动式社会学习问题。SML有效地教会模型利用对话来解决单次交互无法解决的问题。这种能力具有跨领域泛化性;在数学问题上训练的SML模型能够更好地利用反馈解决编码问题,反之亦然。此外,尽管仅在完全指定的问题上进行训练,这些模型在信息不完整、关键信息分多轮揭示的任务中表现更佳。当面对这种模糊性时,经过SML训练的模型较少尝试过早回答,并更倾向于请求所需的信息。这项工作提出了一种可扩展的方法,用于开发能够有效从语言反馈中学习的人工智能系统。
语言反馈 元学习 对话系统 推理能力 任务解决
论文聚焦于LLM如何通过语言反馈进行学习,强调推理与问题解决能力的提升。
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
Zhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han et al.
北卡罗来纳大学教堂山分校 纽约大学 耶鲁大学 独立研究员
9/10 2026-02-18 cs.LG PDF
测试时扩展可以通过聚合随机推理轨迹来提升模型性能。然而,在有限预算下实现样本高效的测试时自一致性仍是一个开放性挑战。本文提出PETS(Principled and Efficient Test-Time Self-Consistency),通过优化框架对轨迹分配进行系统研究。核心是自一致性率,定义为与无限预算多数投票的一致性。该方法在离线和在线场景中均表现出色,实验表明PETS在GPQA数据集上实现了完美的自一致性,并显著减少了采样预算。
self-consistency trajectory allocation test-time scaling reasoning optimization
论文聚焦于提升模型推理一致性,通过轨迹分配优化测试时的推理过程,属于推理能力的核心研究。
Code
Language Statistics and False Belief Reasoning: Evidence from 41 Open-Weight LMs
Sean Trott, Samuel Taylor, Cameron Jones, James A. Michaelov, Pamela D. Rivière
Rutgers University - Newark UC San Diego Stony Brook University MIT
9/10 2026-02-17 cs.CL PDF
关于语言模型(LMs)心理状态推理的研究有助于理解人类社会认知理论,并加深对LM自身能力的认识。然而,现有研究多基于少量封闭源模型,限制了对心理理论和LM能力的严格测试。本文通过评估41个开放权重模型的心理状态推理行为,复现并扩展了虚假信念任务的相关研究。结果显示,34%的LM能感知隐含的知识状态,但均无法完全解释人类的行为。更大的模型表现出更高的敏感性和心理测量预测力。此外,研究提出一个新假设:当知识状态由非事实性动词(如‘John thinks’)提示时,人类和LM都更倾向于归因虚假信念。该结果表明,使用更多开放权重模型样本有助于测试人类认知理论和评估LM能力。
虚假信念推理 语言模型 心理状态推理 认知科学
论文聚焦于语言模型的虚假信念推理能力,属于推理能力研究的核心内容。
Improving Interactive In-Context Learning from Natural Language Feedback
Martin Klissarov, Jonathan Cook, Diego Antognini, Hao Sun, Jingling Li et al.
Google DeepMind
9/10 2026-02-17 cs.AI PDF
在人类学习中,根据纠正性反馈调整思维过程是一项关键能力,尤其在协作环境中。然而,当前大语言模型的训练范式主要依赖于静态语料库建模,忽视了动态适应上下文所需的交互反馈机制。本文提出一种框架,将交互式上下文学习能力视为可训练的独立技能,而非涌现特性。通过构建信息不对称驱动的多轮教学互动,该方法显著提升了模型从语言反馈中学习的能力。实验表明,较小模型的多轮性能接近一个数量级更大的模型,并且在数学问题上的交互训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明,这种改进源于上下文可塑性的增强。最后,该方法为模型自我改进提供了一条统一路径。
推理能力 反馈学习 上下文学习 自我改进
论文聚焦于模型通过自然语言反馈进行交互式上下文学习,显著提升推理能力,属于推理能力的核心研究。
Evidence-Grounded Subspecialty Reasoning: Evaluating a Curated Clinical Intelligence Layer on the 2025 Endocrinology Board-Style Examination
Amir Hosseinian, MohammadReza Zare Shahneh, Umer Mansoor, Gilbert Szeto, Kirill Karlin et al.
Stanford University
9/10 2026-02-17 cs.AI PDF
背景:大型语言模型在一般医学考试中表现出色,但在专科临床推理方面仍面临挑战,因为指南快速演变且证据层次复杂。方法:我们评估了基于证据的临床推理系统January Mirror,在120道内分泌学委员会风格考试题目上与前沿LLM(如GPT-5、Gemini-3-Pro)进行比较。Mirror整合了精选的内分泌和心血管代谢证据库,并采用结构化推理架构生成与证据关联的输出。结果:Mirror准确率达到87.5%,超过人类参考值62.3%及所有前沿LLM。结论:Mirror提供了可追溯的证据引用,证明精选证据在专科临床推理中优于无约束网络检索,并支持临床部署的可审计性。
临床推理 证据溯源 专科医学 LLM对比实验
论文聚焦于临床推理系统在内分泌学考试中的表现,强调基于证据的推理架构与LLM的对比。
ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization
Junbo Jacob Lian, Yujun Sun, Huiling Chen, Chaoyu Zhang, Chung-Piaw Teo
西北大学 文州百药连锁公司 文州大学 香港城市大学
9/10 2026-02-17 cs.SE PDF
大型语言模型(LLMs)可以将自然语言转化为优化代码,但静默故障带来了严重风险:执行并返回求解器可行解的代码可能包含语义错误,导致组合问题中可行性与正确性之间的差距高达90个百分点。本文提出ReLoop,从两个互补方向解决静默故障。结构化生成将代码生成分解为四阶段推理链(理解、形式化、合成、验证),模仿专家建模实践,并通过显式变量类型推理和自验证防止公式错误。行为验证通过测试公式是否对基于求解器的参数扰动做出正确响应来检测生成过程中未被发现的错误,无需依赖外部语义信号。两种机制相辅相成:结构化生成在复杂组合问题上表现优异,而行为验证在局部公式缺陷问题上贡献最大。结合IIS增强诊断的执行恢复,ReLoop在最强模型上将正确性从22.6%提升至31.1%,执行率从72.1%提升至100.0%,并在五种涵盖三种范式(基础模型、SFT、RL)和三个基准的模型中均取得一致提升。此外,还发布了RetailOpt-190,包含190个针对多约束交互场景的零售优化案例,这些是LLMs最常失败的领域。
LLM 推理能力 代码生成 行为验证 优化问题
论文聚焦于LLM在优化问题中的推理过程,提出结构化生成与行为验证机制以提升推理正确性。
Code
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models
Sen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang et al.
State Key Laboratory of Artificial Intelligence, Peking University Center for Data Science, Peking University Center for Machine Learning Research, Peking University
9/10 2026-02-17 cs.CV PDF
当前多模态模型研究面临一个关键挑战:增强生成能力往往会损害理解能力,反之亦然。本文分析了这一权衡关系,并识别出生成与理解之间潜在冲突可能是其主要原因。为解决此问题,我们提出了Reason-Reflect-Refine(R3)框架。该创新算法将单步生成任务重构为“生成-理解-再生成”的多步过程。通过在生成过程中显式利用模型的理解能力,成功缓解了优化困境,实现了更强的生成结果和与生成过程相关的理解能力提升。这为设计下一代统一的多模态模型提供了有价值的见解。代码可在https://github.com/sen-ye/R3获取。
多模态模型 生成与理解 推理框架 模型优化
论文聚焦于模型的理解与生成之间的优化矛盾,提出基于推理的多步骤框架,直接关联推理能力提升。
Code
Recursive Concept Evolution for Compositional Reasoning in Large Language Models
Sarim Chaudhry
普渡大学
9/10 2026-02-17 cs.AI PDF
尽管大型语言模型在许多复杂推理任务中表现出色,但在需要组合推理的基准测试(如ARC-AGI-2、GPQA、MATH、BBH和HLE)中,其准确性显著下降。现有方法通过扩展标记级搜索(如思维链提示、自一致性或强化学习)来提升推理能力,但未改变模型的潜在表示空间。当所需抽象未被编码时,性能会崩溃。本文提出递归概念演化(RCE)框架,使预训练语言模型能够在推理过程中动态修改其内部表示几何结构。RCE引入了动态生成的低秩概念子空间,在检测到表示不足时生成,并通过最小描述长度准则选择、协同时合并以及约束优化进行整合,以保持稳定性。该方法允许模型构建新的抽象而非简单重组已有概念。实验表明,将RCE集成到Mistral-7B中后,在多个组合推理基准上均取得显著提升。
compositional reasoning representation learning large language models concept evolution
论文聚焦于提升大型语言模型的组合推理能力,直接涉及推理机制的改进与创新。
CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving
Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren, Pepijn Kooij, Elsefien Tulleners et al.
代尔夫特理工大学交通与规划学院,工程与认知科学系 代尔夫特理工大学机器人学系,机械工程与认知科学系 代尔夫特理工大学人机交互中心,代尔夫特理工大学技术学院 代尔夫特理工大学机械工程系,代尔夫特理工大学技术学院
9/10 2026-02-17 cs.AI PDF
基础模型,包括视觉语言模型,越来越多地用于自动驾驶中以解释场景、推荐行动并生成自然语言解释。然而,现有的评估方法主要关注结果导向的性能,如安全性和轨迹准确性,而未确定模型决策是否反映人类相关因素。因此,尚不清楚此类模型生成的解释是否对应真正的推理响应决策,还是仅仅是事后合理化。为解决这一问题,我们提出了CARE Drive(上下文感知推理评估驾驶),一个与模型无关的框架,用于评估应用于自动驾驶的视觉语言模型的推理响应性。CARE Drive通过受控上下文变化比较基线和增强推理模型的决策,以评估人类原因是否因果影响决策行为。该框架采用两阶段评估过程。提示校准确保输出稳定。随后系统化的上下文扰动测量决策对人类原因(如安全边界、社会压力和效率约束)的敏感性。我们在一个涉及竞争规范考虑的自行车超车场景中展示了CARE Drive。结果显示,明确的人类原因显著影响模型决策,提高了与专家建议行为的一致性。然而,响应性在不同上下文因素之间存在差异,表明对不同类型原因的敏感性不均衡。这些发现提供了实证证据,表明可以在不修改模型参数的情况下系统评估基础模型的推理响应性。
视觉语言模型 自动驾驶 推理评估 上下文感知 模型评估
论文聚焦于评估视觉语言模型在自动驾驶中的推理响应性,直接涉及推理能力的评估机制。
Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL
Yihan Wang, Peiyu Liu, Runyu Chen, Wei Xu
中国人民大学商学院
9/10 2026-02-17 cs.CL PDF
尽管文本到SQL任务近期取得了显著进展,但在实际场景中仍难以有效应用。这一问题源于对单一静态工作流的依赖,严重限制了其在分布外和长尾场景中的扩展性。为解决此问题,本文提出SquRL,一种强化学习框架,旨在增强LLM在动态工作流构建中的推理能力。通过理论与实证分析,我们证明最优动态策略始终优于最佳静态工作流,性能提升主要由候选工作流间的异质性驱动。为此,我们设计了一种基于规则的奖励函数,并引入两种有效的训练机制:动态演员掩码以鼓励更广泛的探索,以及伪奖励以提高训练效率。实验表明,动态工作流构建方法在广泛使用的文本到SQL基准测试中表现优异,尤其在复杂和分布外查询上效果显著。
Text-to-SQL Reinforcement Learning Dynamic Workflow Reasoning Enhancement
论文聚焦于通过动态工作流提升LLM的推理能力,直接涉及推理机制的改进。
Code
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen et al.
电子科技大学通信研究院 香港大学工程学院
9/10 2026-02-17 cs.CL PDF
大型语言模型(LLMs)正在改变编程范式,但生成算法复杂且鲁棒的代码仍是一个关键挑战。激励LLMs的深度推理能力对于克服这一障碍至关重要。强化微调(RFT)已被视为解决此问题的一种有前途的策略。然而,现有方法大多忽视了测试用例中固有的异构难度和粒度,导致奖励信号分布不均,训练过程中梯度更新出现偏差。为此,我们提出了TAROT(Test-driven and Capability-adaptive Curriculum Reinforcement Fine-Tuning),为每个问题系统构建了一个四层测试套件(基础、中级、复杂、边界),提供一个受控的难度环境用于课程设计和评估。关键在于,TAROT将课程进展与原始奖励分数解耦,实现基于能力的评估,并从多个课程策略中进行原则性选择,而非偶然的测试用例难度组合。该设计促进了稳定的优化和更高效的技能获取。大量实验结果表明,RFT在代码生成中的最佳课程与模型的内在能力密切相关,能力较弱的模型通过由易到难的课程获得更大提升,而能力较强的模型则在先难后易的课程中表现更佳。TAROT提供了一种可复现的方法,根据模型的能力自适应地定制课程设计,从而持续提高生成代码的功能正确性和鲁棒性。
代码生成 强化学习 课程学习 推理能力 LLM微调
论文聚焦于通过强化学习提升LLM的代码生成能力,强调推理能力的激励与优化。
Code
World-Model-Augmented Web Agents with Action Correction
Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li et al.
浙江大学 腾讯AI实验室
9/10 2026-02-17 cs.AI PDF
基于大语言模型的网络代理在自动化网络任务方面展现出巨大潜力。然而,当前网络代理由于难以预测环境变化,导致推理出的动作不够合理,并且可能缺乏对执行风险的全面认知,从而过早采取高风险动作,造成损失并导致任务失败。为了解决这些问题,本文提出WAC,一种结合模型协作、后果模拟和反馈驱动动作优化的网络代理系统。通过引入多代理协作机制,使动作模型能够咨询作为网络环境专家的世界模型以获取战略指导;同时利用环境状态转移动态的先验知识来增强候选动作提案。为了实现风险感知的任务执行,本文引入了一个两阶段的推理链:世界模型模拟动作结果,法官模型则对其进行审查并在必要时触发动作修正反馈。实验表明,WAC在VisualWebArena和Online-Mind2Web数据集上分别取得了1.8%和1.3%的绝对性能提升。
web agents world model action correction risk-aware reasoning multi-agent collaboration
论文重点研究了基于世界模型的推理与行动修正机制,直接涉及LLM/Agent的推理能力提升。
EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
Zelin Xu, Yupu Zhang, Saugat Adhikari, Saiful Islam, Tingsong Xiao et al.
佛罗里达大学计算机与信息科学工程系
9/10 2026-02-17 cs.CV PDF
在计算机视觉领域,对多模态大语言模型(MLLMs)进行空间推理的基准测试因其对具身人工智能和需要与物理世界精确交互的智能体系统的重要性而受到越来越多的关注。然而,在地球影像上的空间推理仍相对滞后,因为其涉及将物体定位在地理参考图像中,并利用视觉线索和矢量几何坐标(如二维边界框、折线和多边形)进行定量方向、距离和拓扑关系推理。现有的地球影像基准主要关注二维空间定位、图像描述和粗略空间关系,缺乏对定量方向和距离推理、系统性拓扑关系以及超出边界框的复杂对象几何的支持。为弥补这一不足,我们提出了EarthSpatialBench,一个用于评估MLLMs在地球影像上空间推理能力的综合性基准。该基准包含超过325,000个问答对,涵盖:(1) 关于空间距离和方向的定性和定量推理;(2) 系统性的拓扑关系;(3) 单对象查询、对象对查询和组合聚合组查询;以及(4) 通过文本描述、视觉叠加和显式几何坐标(包括二维边界框、折线和多边形)表达的对象引用。我们在开源和专有模型上进行了广泛的实验,以识别MLLMs在空间推理方面的局限性。
空间推理 多模态模型 地球影像 基准测试 视觉与几何结合
论文聚焦于多模态大语言模型在地球影像中的空间推理能力,属于推理能力的核心研究。
NeuroSymActive: Differentiable Neural-Symbolic Reasoning with Active Exploration for Knowledge Graph Question Answering
Rong Fu, Yang Li, Zeyu Zhang, Jiekai Wu, Yaohua Liu et al.
澳门大学 中国科学院大学 澳大利亚国立大学 暨南大学
9/10 2026-02-17 cs.CL PDF
尽管大规模预训练语言模型和神经推理系统在许多自然语言任务中取得了进展,但它们在需要精确、结构化多跳推理的知识密集型查询上仍面临挑战。知识图谱提供了事实基础的紧凑符号表示,但将其与神经模型结合并不简单:将图事实嵌入提示中会导致效率低下和脆弱性,而纯粹的符号或搜索方法在检索成本和梯度优化方面存在不足。本文提出NeuroSymActive,一种模块化框架,结合了可微神经符号推理层与主动价值引导的探索控制器,用于知识图谱问答。该方法将软统一风格的符号模块与神经路径评估器及蒙特卡洛风格的探索策略相结合,优先扩展高价值路径。实验结果表明,NeuroSymActive在标准KGQA基准测试中实现了较高的答案准确率,同时减少了昂贵的图查找和模型调用次数,优于常见的检索增强基线。
知识图谱问答 神经符号推理 多跳推理 主动探索
论文聚焦于知识图谱问答中的神经符号推理,强调多跳推理与结构化逻辑推导,属于推理能力的核心研究。
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
Zhixing Zhang, Jesen Zhang, Hao Liu, Qinhan Lv, Jing Yang et al.
Sun Yat-sen University
9/10 2026-02-17 cs.AI PDF
农业基础模型虽在预测和监测方面表现出色,但缺乏语言推理和交互能力,限制了其在实际农业工作流程中的应用。同时,大语言模型(LLMs)擅长文本理解和生成,却无法直接处理高维异构的农业数据集。为此,本文提出一个面向农业科学的智能体框架,提供Python执行环境AgriWorld,支持对田块的地理空间查询、遥感时间序列分析、作物生长模拟及任务特定预测器(如产量、胁迫和病害风险)。在此基础上设计了一个多轮LLM代理Agro-Reflective,通过编写代码、观察执行结果并进行反思的循环过程,逐步优化分析。此外,引入AgroBench基准测试集,涵盖多样化的农业问答任务,包括查找、预测、异常检测和反事实分析。实验表明,该方法优于纯文本和直接工具使用基线,验证了基于执行驱动的反思机制在农业推理中的有效性。
农业推理 代码执行代理 LLM反思机制 多模态数据分析
论文聚焦于通过代码执行与反思循环实现农业领域的可靠推理,直接涉及LLM的推理能力提升。
Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque
Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri
HITZ Center - Ixa, University of the Basque Country UPV/EHU
9/10 2026-02-16 cs.CL PDF
物理常识推理是人类智能的重要组成部分,使个体能够理解环境、预测事件并导航物理空间。近年来,自然语言处理领域对推理任务的兴趣不断增长。然而,此前尚未有研究考察大语言模型(LLMs)在低资源语言如巴斯克语中的非问答型物理常识推理任务表现。本文以意大利语GITA为起点,提出了BasPhyCo数据集,这是首个针对巴斯克语的标准及方言变体的非问答型物理常识推理数据集。我们从三个层次评估了模型的常识理解能力:区分合理与不合理叙述(准确性)、识别导致叙述不合理的冲突元素(一致性)以及确定造成不合理性的具体物理状态(可验证性)。实验结果表明,在可验证性方面,LLMs在低资源语言如巴斯克语中表现出有限的物理常识推理能力,尤其是在处理方言变体时。
物理常识推理 低资源语言 LLM评估 巴斯克语 非问答任务
论文聚焦于物理常识推理任务,评估LLM在低资源语言中的推理能力,属于reasoning主题的核心研究。
Unlocking Reasoning Capability on Machine Translation in Large Language Models
Sara Rajaee, Sebastian Vincent, Alexandre Berard, Marzieh Fadaee, Kelly Marchisio et al.
阿姆斯特丹大学
9/10 2026-02-16 cs.CL PDF
面向推理的大型语言模型(RLMs)通过生成显式中间推理,在数学和编程等任务中取得了显著进展。然而,其在机器翻译(MT)中的影响仍鲜有研究。本文系统评估了多个开源和闭源RLMs在WMT24++基准上的表现,发现启用显式推理会普遍降低翻译质量。分析表明,MT的推理轨迹高度线性,缺乏修订、自我纠正和替代翻译的探索,限制了其实用性。此外,从更强模型注入高质量推理轨迹并不能可靠地提升较弱模型的表现。为解决这一不匹配问题,我们提出了一种针对翻译任务的结构化推理框架,基于多步骤草稿、充分性优化、流畅性改进和选择性迭代修订。我们构建了一个动态结构化推理轨迹的合成数据集,并在此基础上对大型推理模型进行后训练。实验表明,该方法在标准翻译微调和注入通用推理基线方法上均有显著提升。我们的研究结果表明,推理必须具有任务结构才能有效提升机器翻译。
machine translation reasoning framework structured reasoning large language models
论文聚焦于LLM的推理能力在机器翻译中的应用与改进,是该主题的核心研究。
Universal Algorithm-Implicit Learning
Stefano Woerner, Seong Joon Oh, Christian F. Baumgartner
科学卓越中心(Cluster of Excellence “Machine Learning: New Perspectives for Science”),图宾根大学,德国图宾根 瑞士卢塞恩大学健康科学学院,瑞士卢塞恩
9/10 2026-02-16 cs.LG PDF
当前元学习方法受限于固定特征和标签空间的任务分布,适用性有限。此外,现有文献中对“通用”和“通用型”等术语使用不一致,缺乏明确定义,影响可比性。本文引入了一个理论框架,形式化定义了实用的通用性,并区分了算法显式学习与算法隐式学习,为通用元学习方法提供了原理性的术语体系。基于该框架,我们提出了TAIL,一种基于Transformer的算法隐式元学习器,能够在不同领域、模态和标签配置的任务中运行。TAIL相比之前的Transformer元学习器有三个创新点:跨模态特征编码的随机投影、扩展至更大标签空间的随机注入标签嵌入以及高效的内联查询处理。TAIL在标准少样本基准测试中达到最先进性能,并能泛化到未见过的领域。与其他元学习方法不同,它还能泛化到未见过的模态,在仅训练图像的情况下解决文本分类任务,处理比训练时多20倍类别的任务,并且计算效率显著优于先前方法。
元学习 通用性 Transformer 算法隐式学习 推理能力
论文聚焦于元学习的通用性与推理能力,提出算法隐式学习框架并设计相关模型。
AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises
Kenneth Payne
英国国王学院伦敦
9/10 2026-02-16 cs.AI PDF
当前领先的AI模型在战略竞争情境下表现出复杂的行为,包括自发的欺骗、对对手信念的推理以及可信的元认知自我意识。本文通过模拟核危机场景,让三个前沿大语言模型(GPT-5.2、Claude Sonnet 4、Gemini 3 Flash)扮演对立领导人,验证并挑战了战略理论的核心观点。研究发现,这些模型在某些方面符合经典战略理论,但在核升级、威胁反应和冲突加速等方面表现出不同特征。作者认为,AI模拟是战略分析的强大工具,但必须基于人类推理模式进行校准,以理解前沿模型如何模仿或偏离人类的战略逻辑。
战略推理 AI模拟 核危机决策 元认知 AI行为分析
论文重点研究了前沿AI模型在战略竞争中的复杂推理能力,包括欺骗、意图推断和自我评估。
Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
Jing Tang, Kun Wang, Haolang Lu, Hongjin Chen, KaiTao Chen et al.
清华大学
9/10 2026-02-16 cs.AI PDF
多模态大语言模型(MLLMs)在长链推理过程中常因不同知识源提供的冲突信号而失败。本文将这些失败归结为统一的知识冲突概念,并区分输入级客观冲突与过程级有效冲突。通过探测内部表示,研究发现:(I) 线性可分性:不同类型冲突以线性可分特征形式编码;(II) 深度定位:冲突信号集中在中后期层,表明存在专门的冲突编码阶段;(III) 分层一致性:沿轨迹聚合噪声标记信号可稳健恢复输入级冲突类型;(IV) 方向不对称性:强化模型隐含的来源偏好比强制相反来源容易得多。研究从机制层面揭示了多模态推理中知识冲突的处理方式,并为长链推理失败提供了原理性诊断与控制方法。
知识冲突 多模态推理 长链推理 模型内部表示分析
论文聚焦于多模态大语言模型在长链推理中的知识冲突问题,直接涉及推理能力的机制分析与改进。
Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil
Sukumar Kishanthan, Kumar Thushalika, Buddhi Jayasekara, Asela Hevapathige
鲁哈纳大学
9/10 2026-02-16 cs.CL PDF
大型语言模型(LLMs)在英语中表现出强大的数学推理能力,但其在低资源语言如僧伽罗语和泰米尔语中的推理能力是否基于真正的多语言推理还是依赖于翻译机制仍不清楚。本文通过构建一个由三种语言的母语者撰写的平行数据集,评估了四种主流大语言模型在六类数学问题上的表现,从基础算术到复杂的单位冲突和优化问题。结果表明,虽然基础算术推理在不同语言间具有较强的迁移性,但在僧伽罗语和泰米尔语中复杂推理任务的表现显著下降。不同模型和问题类型之间的失败模式也存在差异,这表明表面上的多语言能力可能并不反映跨语言一致的推理能力。这些发现挑战了模型在多语言任务中表现优异即能同等有效推理的常见假设,并突出了在多语言环境下进行细粒度、类型感知评估的重要性。
数学推理 多语言模型 低资源语言 模型评估 翻译影响
论文核心研究LLM在低资源语言中的数学推理能力,直接涉及推理能力的评估与分析。
HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation
Wen-Sheng Lien, Yu-Kai Chan, Hao-Lung Hsiao, Bo-Kai Ruan, Meng-Fen Chiang et al.
国立阳明交通大学 E-SUN Bank 国立高雄师范大学
9/10 2026-02-16 cs.CL PDF
基于图的检索增强生成(RAG)方法通常依赖于具有二元关系事实的知识图谱,在多跳开放域问答中表现出一定潜力。然而,其固定的检索方案和密集相似性搜索常引入无关上下文,增加计算开销并限制关系表达能力。相比之下,n元超图能够编码更高阶的关系事实,捕捉更丰富的实体间依赖关系,并实现更浅、更高效的推理路径。为此,本文提出HyperRAG,一种针对n元超图的RAG框架,包含两种互补的检索变体:HyperRetriever通过结构-语义推理构建查询条件下的关系链,支持准确的事实追踪、自适应高阶遍历和可解释的多跳推理;HyperMemory利用LLM的参数化记忆指导束搜索,动态评分n元事实和实体以实现查询感知的路径扩展。在WikiTopics(11个封闭域数据集)和三个开放域问答基准(HotpotQA、MuSiQue和2WikiMultiHopQA)上的广泛评估验证了HyperRAG的有效性。HyperRetriever在整体答案准确性上表现最佳,MRR平均提升2.95%,Hits@10平均提升1.23%。定性分析进一步表明,HyperRetriever通过自适应且可解释的n元链构建弥合了推理差距,对开放域和封闭域问答均有益。
检索增强生成 超图推理 多跳问答 知识图谱 LLM推理
论文聚焦于基于超图的推理路径构建与增强生成,直接提升LLM的推理能力。
Code
Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation
Guangyue Peng, Zongchao Chen, Wen Luo, Yuntao Wen, Wei Li et al.
纳贝吉尔实验室(Nanbeige Lab) 中国科学院计算技术研究所 清华大学电子工程系
9/10 2026-02-16 cs.CL PDF
反向思维链生成(RCG)通过查询-答案对合成推理轨迹,但存在事后合理化风险:当模型在生成过程中能看到答案时,答案会成为认知锚点,影响整个解释。本文通过词法、熵值和概率锚定三个层次的形式化测量体系,分析了语义抑制策略的局限性,并提出结构骨架引导推理(SSR)方法,通过分两阶段生成答案无关的功能结构骨架并指导完整轨迹生成,有效降低锚定效应。进一步引入蒸馏SSR(SSR-D),通过教师生成的SSR轨迹微调模型,确保结构一致性。实验表明,SSR-D在开放推理基准上优于抑制基线10%,同时保持分布外泛化能力。
推理能力 思维链 认知锚定 结构规划 后验合理化
论文聚焦于推理过程中的后验合理化问题,提出改进方法以增强推理的可靠性与独立性。
Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning
Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen et al.
South China University of Technology Panzhou Laboratory DAMO Academy, Alibaba Group
9/10 2026-02-16 cs.AI PDF
大型语言模型(LLMs)在推理过程中常因冗长且低效的思维链而产生较高的计算成本并影响性能。受人类利用过往案例解决新问题的启发,本文提出基于先例的推理(PIR),将推理范式从耗尽式的自我探索转变为基于先例的引导学习。PIR主要解决两个关键问题:如何选择相关先例以及如何有效利用它们。首先,自适应先例选择(APS)为每个问题和模型构建一个语义相关且信息丰富的先例集合,并通过语义相似度与模型困惑度联合评分进行排序,从而最大化困惑度降低。其次,测试时经验内化(TEI)通过更新轻量级适配器,将解决方案模式内化为推理中的先验知识。实验表明,PIR在数学推理、科学问答和代码生成任务中均能显著缩短推理路径,同时保持或提升最终准确性,实现了优异的精度-效率权衡。
推理优化 先例学习 思维链压缩 模型效率 LLM推理
论文聚焦于改进LLM的推理过程,提出通过先例引导推理以减少冗余探索,直接针对推理能力优化。
Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
Mufan Xu, Kehai Chen, Xuefeng Bai, Zhengyu Niu, Muyun Yang et al.
北京工业大学计算机学院,中国
9/10 2026-02-16 cs.CL PDF
现有的自动回归语言模型策略梯度方法通常逐个选择后续token作为动作。尽管这种方法在许多生成任务中有效,但在需要多个token共同表达一个语义决策的复杂推理任务中可能存在不匹配。为此,本文提出多token策略梯度优化(MPO)框架,将连续K个token视为统一的语义动作,以捕捉推理轨迹的组合结构,并支持更高层次的目标优化。实验表明,MPO在数学推理和编程基准测试中优于标准token级策略梯度方法,突显了token级策略梯度在复杂推理任务中的局限性,为未来研究提供了新的方向。
large language models policy gradient complex reasoning token-level optimization block-level actions
论文聚焦于改进LLM在复杂推理任务中的表现,提出多token策略梯度优化方法,直接针对推理过程的结构问题。
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue et al.
浙江大学 香港大学
9/10 2026-02-16 cs.CL PDF
随着大型语言模型的快速发展,科学思想的产出显著增加,但相应的评估方法并未同步进步。科学评估需要知识基础、集体讨论和多标准决策。然而,现有方法常受限于知识视野狭窄、评估维度单一及LLM作为评判者的固有偏见。为此,本文将思想评估视为一个基于知识的多视角推理问题,并提出InnoEval框架,旨在模拟人类级别的思想评估。该框架利用异构深度知识搜索引擎从多样化的在线来源中检索并定位动态证据,并通过由不同学术背景评审者组成的创新评审委员会达成共识,实现多维解耦评估。本文构建了来自权威同行评审提交的综合数据集以验证InnoEval。实验表明,InnoEval在点对点、成对和群体评估任务中均优于基线方法,其判断模式和共识高度符合人类专家。
idea evaluation multi-perspective reasoning knowledge grounding LLM assessment
论文聚焦于基于知识的多视角推理问题,直接涉及LLM的推理能力与评估机制。
Code
Fast and Effective On-policy Distillation from Reasoning Prefixes
Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler et al.
Optum AI
9/10 2026-02-16 cs.LG PDF
策略蒸馏(OPD)通过从学生模型中采样轨迹,并在标记级别上由教师模型监督,避免仅依赖可验证的终端奖励,从而实现比离线策略蒸馏更好的泛化能力。然而,OPD需要在训练过程中昂贵地实时采样学生策略,这显著增加了训练成本,尤其是在长响应情况下。我们的初步分析表明,在OPD过程中,训练信号通常集中在每个输出的前缀部分,即使是一个简短的教师生成前缀也能显著帮助学生生成正确答案。受此启发,我们提出了一种简单而有效的OPD改进方法:仅对学生的输出前缀应用蒸馏目标,并在蒸馏过程中提前终止采样。在一系列AI-for-Math和领域外基准测试中的实验表明,策略前缀蒸馏在性能上与完整的OPD相当,同时将训练FLOP减少了2至47倍。
知识蒸馏 推理前缀 策略优化 模型压缩
论文聚焦于通过推理前缀进行知识蒸馏,直接关联到LLM的推理能力提升。
Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs
Luise Ge, Yongyan Zhang, Yevgeniy Vorobeychik
华盛顿大学
9/10 2026-02-16 cs.AI PDF
随着大语言模型(LLM)在决策支持系统和智能代理流程中的广泛应用,其在不确定性条件下的决策机制仍缺乏深入理解。本文从两个维度对20个前沿及开源LLM的风险选择进行比较研究:一是前景表示方式(显式与经验基础),二是决策理由(解释)。研究结合人类受试者实验和最大化预期收益的理性代理模型作为参考。结果发现,LLM可分为两类:推理模型(RMs)和对话模型(CMs)。RMs表现出更理性的行为,对前景顺序、得失框架和解释不敏感;而CMs则显著不够理性,更接近人类行为,且对前景顺序、框架和解释敏感,表现出较大的描述-历史差距。研究表明,数学推理训练是区分RMs和CMs的关键因素。
LLM决策 风险选择 推理模型 对话模型 理性代理
论文核心研究LLM在不确定条件下的决策行为,重点分析推理模型与对话模型的差异。
On the Semantics of Primary Cause in Hybrid Dynamic Domains
Shakil M. Khan, Asim Mehmood, Sandra Zilles
Regina, Saskatchewan, Canada
9/10 2026-02-16 cs.AI PDF
对观察到的效果的实际原因进行推理是理性研究的基础。自亚里士多德以来,这一重要问题一直被研究,近年来才出现形式化的数学描述。我们生活在一个由于行动而产生变化的世界,这种变化可以是离散的也可以是连续的,即混合的。尽管对实际因果关系已有广泛研究,但很少有研究关注连续变化中的因果关系。本文基于最新进展,在混合行动理论框架(即混合时间情景演算)中提出了两种主要原因的定义。其中一种具有基础性,另一种通过贡献形式化因果关系,并可通过修改后的“如果没有”测试从反事实角度验证。我们证明这两种定义确实等价,并展示了这些因果定义具有一些直观合理的性质。
因果推理 混合动态系统 形式化方法 反事实分析
论文聚焦于因果推理,特别是混合动态领域中的实际原因分析,属于推理能力的核心研究。
BFS-PO: Best-First Search for Large Reasoning Models
Fiorenzo Parascandolo, Wenhui Tan, Enver Sangineto, Ruihua Song, Rita Cucchiara
Department of Engineering, University of Modena and Reggio Emilia, Italy Glancing School of Artificial Intelligence, Renmin University of China, Beijing, China Correspondence to: Florencio Parascandolo
9/10 2026-02-16 cs.CL PDF
大型推理模型(LRMs)如OpenAI o1和DeepSeek-R1在使用长推理链的任务中表现出色,但同时也带来了计算成本增加和输出冗长的问题,即过度思考现象。强化学习算法如GRPO/DAPO往往会加剧这一问题。本文提出BFS-PO,一种基于最佳优先搜索策略的强化学习算法,通过最大熵节点的回溯机制寻找最短正确答案。在训练过程中,BFS-PO逐步生成更简短的响应,从而学会生成简洁的推理链。实验表明,BFS-PO能够在不同基准和基础LRMs上同时提高模型准确率并缩短回答长度。
推理优化 强化学习 最佳优先搜索 大型语言模型
论文聚焦于改进大型推理模型的推理过程,提出方法以减少冗余推理并提升准确性,直接关联推理能力。
Code
Position: Introspective Experience from Conversational Environments as a Path to Better Learning
Claudiu Cristian Musat, Jackson Tolins, Diego Antognini, Jingling Li, Martin Klissarov et al.
Google DeepMind
9/10 2026-02-16 cs.AI PDF
当前AI训练方法将推理视为规模扩展的副产品。本文认为,稳健的推理能力源于语言自我反思,而这种反思是从高质量的社会互动中内化的。基于维果茨基的发展心理学理论,文章提出三个核心观点:首先,私人思维的社会起源表明,从对话环境中学习成为理解世界的新方式;其次,通过对话构建的内省体验使代理能够脱离即时数据流进行学习,将原始环境数据转化为可学习的丰富叙事;最后,对话质量是新的数据质量,代理的私密推理深度和测试时计算效率取决于其掌握的对话多样性与严谨性。结论指出,优化这些对话框架是下一代通用智能的关键杠杆。
自我反思 对话学习 推理能力 社会互动 认知发展
论文聚焦于通过对话环境中的自我反思提升推理能力,直接涉及推理机制的生成与优化。
Lifted Relational Probabilistic Inference via Implicit Learning
Luise Ge, Brendan Juba, Kris Nilsson, Alison Shao
计算机科学与工程系,华盛顿大学
9/10 2026-02-16 cs.AI PDF
在人工智能中,如何协调归纳学习与演绎推理在一阶关系领域中的张力是一个长期挑战。本文研究了通过学习与推理的联合努力,在不构建显式模型的情况下回答一阶关系概率逻辑查询的问题。传统提升推理假设可以访问完整模型,并利用对称性评估概率查询;然而,从部分、噪声观测中学习此类模型通常不可行。本文通过隐式学习与一阶关系概率推理技术协调这两个挑战。具体而言,我们将在多项式时间内将不完整的谓词逻辑公理与独立采样、部分观察到的例子合并为求和平方(SOS)层次的一个有界度片段。我们的算法同时执行两种提升:(i)地面提升,其中等价的地面矩共享一个变量,压缩个体域;(ii)世界提升,其中所有伪模型(部分世界分配)并行强制执行,生成一个适用于所有符合所学约束的世界的全局边界。这些创新成果首次提出了一个多项式时间框架,隐式学习一阶概率逻辑并在个体和世界层面进行提升推理。
概率推理 隐式学习 一阶逻辑 提升推理 SOS层次
论文聚焦于一阶关系概率逻辑中的推理问题,提出隐式学习与提升推理技术,直接关联推理能力。
On the Learning Dynamics of RLVR at the Edge of Competence
Yu Huang, Zixin Wen, Yuejie Chi, Yuting Wei, Aarti Singh et al.
宾夕法尼亚州立大学统计学与数据科学学院,华顿商学院 哥伦比亚大学电气工程与计算机科学系 康奈尔大学统计学与数据科学系 耶鲁大学电气工程与计算机科学系
9/10 2026-02-16 cs.LG PDF
可验证奖励的强化学习(RLVR)是近期大型推理模型取得突破的主要驱动力。然而,仅基于最终结果的奖励如何帮助克服长时序推理障碍仍不清楚。为了解决这一问题,本文提出了一个针对变压器模型在组合推理任务中训练动态的理论。该理论表明,RLVR的效果由难度光谱的平滑性决定。当数据包含难度的突变时,学习过程会出现类似grokking的相变,导致进展前出现长期停滞;而平滑的难度分布则会产生接力效应:通过持续解决简单问题,模型能力逐步提升,从而能够处理更复杂的问题,实现稳定且连续的改进。该理论解释了RLVR如何在能力边缘提升性能,并指出适当设计的数据混合可以带来可扩展的收益。技术上,本文将有限群上的傅里叶分析工具应用于当前场景,并通过合成实验验证了预测机制。
强化学习 推理能力 训练动态 组合推理 傅里叶分析
论文聚焦于强化学习在组合推理任务中的训练动态,直接涉及LLM的推理能力提升机制。
Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe
EPFL Apple
9/10 2026-02-16 cs.LG PDF
强化学习已被证明是解锁大语言模型推理能力的一种强大范式。然而,依赖稀疏奖励使得这一过程高度样本低效,因为模型必须在缺乏反馈的情况下遍历巨大的搜索空间。尽管经典的课程学习旨在通过按复杂度排序数据来缓解这一问题,但对特定模型而言,合适的排序往往不明确。为了解决这一问题,我们提出了Goldilocks,一种新颖的教师驱动的数据采样策略,旨在预测学生模型对每个问题的难度。教师模型选择适合学生模型难度的问题(即既不太简单也不太困难),并在训练学生模型时使用GRPO方法。通过利用学生模型在已见样本上的表现,教师模型持续适应学生能力的变化。在OpenMathReasoning数据集上,Goldilocks数据采样策略在相同计算预算下提升了标准GRPO训练模型的性能。
强化学习 推理能力 课程学习 GRPO 任务难度调整
论文聚焦于通过强化学习提升LLM的推理能力,并提出针对性的数据采样策略。
STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts
Zachary Bamberger, Till R. Saenger, Gilad Morad, Ofra Amir, Brandon M. Stewart et al.
以色列理工学院 耶路撒冷大学
9/10 2026-02-15 cs.CL PDF
推理时计算(ITC)方法如Best-of-N和Tree-of-Thoughts旨在生成高质量且多样的输出候选,但其依赖高温采样往往难以实现有意义的输出多样性。此外,现有ITC方法对推理过程的控制有限,从而限制了其可解释性。本文提出STATe-of-Thoughts(STATe),一种可解释的ITC方法,通过搜索高层次的推理模式来改进推理过程。STATe用离散且可解释的文本干预替代随机采样:控制器选择编码高层次推理选择的动作,生成器根据这些选择生成推理步骤,评估器对候选结果进行评分以指导搜索。这种结构化方法带来了三大优势:首先,基于动作引导的文本干预比温度采样产生更大的响应多样性;其次,在论证生成案例研究中,STATe的显式动作序列捕捉到具有高度预测输出质量的可解释特征;第三,估计性能与动作选择之间的关联使我们能够识别出有潜力但尚未探索的动作空间区域,并直接引导生成过程朝向这些区域。综上所述,这些结果确立了STATe作为生成高质量、多样且可解释文本的实用框架。
推理增强 文本生成 可解释性 结构化动作模板
论文聚焦于推理过程的结构化控制与多样性生成,直接涉及LLM的推理能力提升。
Code
The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents
Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li et al.
上海交通大学 南洋理工大学 新加坡国立大学 Queen Mary University of London
9/10 2026-02-15 cs.SD PDF
近期的大规模音频语言模型(LALMs)在理解能力方面表现出色,但通常缺乏透明的推理过程。为解决这一“黑箱”问题,我们在Interspeech 2026上组织了音频推理挑战赛,这是首个专门用于评估音频领域Chain-of-Thought(CoT)质量的共享任务。挑战赛引入了MMAR-Rubrics,一种新颖的实例级协议,用于评估推理链的事实性和逻辑性。比赛设有单模型和Agent两个赛道,吸引了来自18个国家和地区的156支队伍参与。结果显示,当前Agent系统在推理质量方面处于领先地位,利用了迭代工具编排和跨模态分析。此外,单模型通过强化学习和复杂的数据管道也在迅速进步。本文详细介绍了挑战赛的设计、方法论,并对最先进的系统进行了全面分析,为可解释的音频智能提供了新的见解。
audio reasoning chain-of-thought agent systems LLM evaluation cross-modal analysis
论文聚焦于音频推理模型和Agent的推理过程质量评估,直接涉及推理能力的核心研究。
Code
Reasoning Language Models for complex assessments tasks: Evaluating parental cooperation from child protection case reports
Dragan Stoll, Brian E. Perron, Zia Qi, Selina Steinmann, Nicole F. Eicher et al.
心理学与教育学院,乌尔姆大学,德国 社会工作学院,苏黎世联邦理工学院应用科学学院,瑞士 密歇根大学社会工作学院,美国 儿童与青少年精神病学、心理生理学与心理治疗,乌尔姆大学临床中心,德国
9/10 2026-02-15 cs.CY PDF
目的:推理语言模型(RLMs)在解决复杂推理任务方面取得了显著进展。本文探讨了其在利用案例报告评估儿童保护服务(CPS)干预过程中父母合作潜力的应用,该案例因素具有模糊和矛盾的信息。方法:开发了一个四阶段的工作流程,包括(1)案例报告收集,(2)基于推理的父母合作评估,(3)自动分类提取,以及(4)案例标签分配。比较了不同参数规模的RLMs(255B、32B、4B)的表现,并与人工验证数据进行对比。两名专家评审员独立分类了一组加权随机样本报告。结果:最大的RLM达到了最高的准确率(89%),优于初始方法(80%)。母亲的分类准确率(93%)高于父亲(85%),专家评审员也表现出类似差异。结论:RLMs的推理能力可以有效评估复杂的案例因素,如父母合作。评估父亲合作时准确率较低,支持了CPS干预中更关注母亲的专业倾向论点。
推理语言模型 复杂评估任务 儿童保护案例 父母合作评估
论文核心研究RLMs在复杂推理任务中的应用,特别是对模糊信息的评估。
Knowing When Not to Answer: Abstention-Aware Scientific Reasoning
Samir Abdaljalil, Erchin Serpedin, Hasan Kurban
Texas A&M University Hamad Bin Khalifa University
9/10 2026-02-15 cs.CL PDF
大型语言模型越来越多地用于回答和验证科学声明,但现有评估通常假设模型必须始终给出明确答案。然而,在科学场景中,缺乏支持或不确定的结论可能比回避更有害。本文通过一个具有回避意识的验证框架研究这一问题,该框架将科学声明分解为最小条件,并使用自然语言推理(NLI)对每个条件进行审计,从而选择性地决定支持、反驳或回避。我们在两个互补的科学基准数据集SciFact和PubMedQA上评估了该框架,涵盖封闭式和开放式证据设置。实验使用了六种不同的语言模型,包括编码器-解码器模型、开源聊天模型和专有API。结果表明,不同架构的原始准确性差异不大,而回避在控制错误方面起着关键作用。特别是基于置信度的回避显著降低了风险,即使绝对准确性提升有限。我们的研究指出,在科学推理任务中,主要挑战不是选择最佳模型,而是确定现有证据是否足以支持答案。这项工作强调了具有回避意识的评估作为评估科学可靠性的实用且模型无关的视角,并为未来科学领域选择性推理的研究提供了统一的实验基础。
科学推理 自然语言推理 模型评估 回避机制 不确定性处理
论文聚焦于科学推理中的选择性回答机制,涉及模型在不确定时的自我判断与回避,属于推理能力的核心研究。
Code
Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning
Chaeeun Lee, T. Michael Yates, Pasquale Minervini, T. Ian Simpson
曼彻斯特大学信息学院,英国
9/10 2026-02-15 cs.AI PDF
临床决策需要对异质性证据进行细致的推理,并提供可追溯的依据。尽管最近的LLM多智能体系统(MAS)展现出潜力,但它们主要优化结果准确性,而忽视了与临床标准一致的过程导向推理。本文以基因-疾病有效性整理为例,引入了一个基于工具的强化学习框架,旨在确保推理遵循有效的临床路径,并通过分层多智能体系统实现高效协调。在ClinGen数据集上的评估表明,仅使用结果奖励时,GRPO训练的Qwen3-4B监督智能体显著提升了最终结果准确性,但过程一致性较差;而在结合过程与结果奖励的情况下,该方法不仅提高了结果准确性,还显著改善了过程一致性。
临床推理 多智能体系统 强化学习 过程监督 医学NLP
论文聚焦于临床推理过程的监督与优化,强调符合临床标准的推理路径。
Code
NEST: Nascent Encoded Steganographic Thoughts
Artem Karpov
Independent
9/10 2026-02-15 cs.AI PDF
监控链式推理(CoT)是大型语言模型(LLM)代理的基础安全技术;然而,如果模型学会隐藏其推理过程,这种监控将受到威胁。本文探讨了隐写CoT的可能性,即模型在无害文本中隐藏秘密推理,以用于风险评估和部署策略。我们系统地评估了28个模型(从早期版本到当前前沿模型)的隐写能力限制。通过四个数据集,测量了监控规避、拒绝率、编码保真度和隐藏任务准确性,并将隐写首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而,在简化计数实验中,Claude Opus 4.5在隐藏任务上达到了92%的准确率,显示出初步能力。值得注意的是,在极少数情况下(<1%),GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。该研究提供了一种方法,可以提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。
隐写推理 安全评估 LLM监控 链式推理
论文聚焦于LLM的推理过程隐藏与检测,直接涉及推理能力的安全性评估。
TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
Zhizhao Luo, Zhaojing Luo, Meihui Zhang, Rui Mao
北京信息科技大学
9/10 2026-02-15 cs.DB PDF
大型语言模型(LLMs)已成为自然语言表格推理的强大工具,但现有方法存在局限。基于提示的方法依赖语言推理或单次程序生成,缺乏步骤级验证;基于代理的方法虽使用工具进行闭环操作,但验证通常局部且回溯有限,导致错误传播和成本增加。本文提出TabTracer,一种代理框架,通过协调多步工具调用并跟踪中间表格状态,实现显式状态验证与回滚。首先,它通过类型化操作和轻量数值与格式检查实现步骤级验证,以提供可靠奖励并抑制幻觉。其次,执行反馈蒙特卡洛树搜索维护候选表格状态的搜索树,并利用反向传播的反思评分指导UCB1选择和回滚。最后,通过预算感知剪枝、去重和单调性门控的状态哈希减少冗余,降低token消耗。在TabFact、WikiTQ和CRT数据集上的全面评估表明,TabTracer在准确率上优于最先进基线最多6.7%,同时将token消耗减少了59-84%。
表格推理 蒙特卡洛树搜索 代理框架 推理优化 LLM
论文聚焦于LLM在复杂表格推理中的能力提升,提出基于蒙特卡洛树搜索的框架,直接关联推理机制与方法。
GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler
Minghan Wang, Ye Bai, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
莫纳什大学数据科学与人工智能学院 莫纳什大学计算机学院
9/10 2026-02-15 cs.CL PDF
在潜层推理模型中,推理时扩展(ITS)通常通过启发式扰动(如dropout或固定高斯噪声)引入随机性。尽管这些方法能增加轨迹多样性,但其探索行为未被显式建模,在有限采样预算下可能效率低下。本文观察到更强的扰动并不一定带来更有效的候选轨迹,因为无指导的噪声可能会破坏内部决策结构而非引导其发展。为此,本文将潜层思维探索建模为从可学习密度中进行条件采样,并提出高斯思维采样器(GTS)。GTS预测与上下文相关的连续推理状态扰动分布,并在保持主干模型冻结的情况下,使用GRPO风格的策略优化进行训练。在GSM8K数据集上的实验表明,GTS在推理时扩展方面比启发式基线方法更可靠。这些发现表明,改进潜层ITS需要结构化且可优化的探索机制,而不仅仅是放大随机性。
latent reasoning inference-time scaling Gaussian Thought Sampler policy optimization
论文聚焦于推理模型中的推理轨迹扩展机制,直接涉及LLM的推理能力提升。
REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
Kai Ye, Xianwei Mao, Sheng Zhou, Zirui Shao, Ye Mo et al.
Zhejiang University, Hangzhou, China Alibaba Group, Hangzhou, China
9/10 2026-02-15 cs.AI PDF
知识密集型视觉问答(KI-VQA)常因开放域检索的固有限制而面临严重的知识冲突问题。现有方法由于缺乏通用的冲突检测和模型内约束机制而存在关键局限。为应对这些挑战,本文提出基于新型‘推理-关键点’概念的REAL框架。该框架将推理-关键点作为推理链中的原子单元,强调知识链接,并依赖外部证据完成推理。通过构建的REAL-VQA数据集,该方法结合了推理-关键点感知的监督微调(RPA-SFT)以训练可泛化的判别器,并采用推理-关键点引导解码(RPGD)策略进行针对性冲突缓解。大量实验表明,REAL显著提升了判别准确率,达到了最先进的性能,验证了其以关键点驱动的解决范式的有效性。
视觉问答 知识冲突 推理链 外部证据 模型解码
论文聚焦于通过推理链中的关键节点(Reasoning-Pivot)解决知识冲突,直接涉及推理机制与逻辑处理。
LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation
Jizheng Chen, Weiming Zhang, Xinyi Dai, Weiwen Liu, Kounianhua Du et al.
上海交通大学
9/10 2026-02-15 cs.CL PDF
代码生成是一项需要精确且结构化推理的挑战性任务。现有的测试时扩展(TTS)方法,包括结构化树搜索,在探索推理路径方面取得了一定进展,但仍面临两个主要问题:(1)浅层推理,即推理链往往较浅,无法捕捉问题的全部复杂性;(2)过度推理,即过于冗长的推理导致效率低下和计算成本增加。为了解决这些问题,我们提出了LogitsCoder,一种通过轻量级logits层级控制机制增强链式推理的新框架。LogitsCoder通过首先利用Logits Preference Decoding引导token选择向统计上更优的模式靠拢,然后使用基于logits排名的路径选择和思维聚合方法选择并整合多样化的推理路径,从而生成既连贯又有效的推理链,平衡深度与效率。大量实验表明,LogitsCoder生成的推理链更加高效且质量更高,相较于基线方法在代码生成性能上表现更优。
chain-of-thought code generation logits preference decoding reasoning efficiency
论文聚焦于提升LLM的推理路径搜索效率,直接涉及链式推理机制与生成质量。
FloCA: Towards Faithful and Logically Consistent Flowchart Reasoning
Jinzi Zou, Bolin Wang, Liang Li, Shuo Zhang, Nuo Xu et al.
MoE KLINNS Lab, Xi'an Jiaotong University
9/10 2026-02-15 cs.AI PDF
流程图导向对话(FOD)系统旨在通过遵循特定领域的流程图来引导用户完成多轮决策或操作过程以实现任务目标。本文将FOD中的流程图推理形式化为在每次对话回合中将用户输入映射到流程图节点,并确保节点转换符合正确的流程路径。尽管近年来大语言模型(LLMs)在任务导向对话系统中取得了进展,但将其适配到FOD仍面临两个限制:(1)LLMs缺乏显式表示和推理流程图拓扑结构的机制;(2)它们容易产生幻觉,导致不忠实的流程图推理。为解决这些问题,我们提出了FloCA,一种零样本的流程图导向对话代理。FloCA使用LLM进行意图理解和响应生成,同时将流程图推理委托给一个外部工具,该工具执行拓扑约束的图遍历,从而确保对话回合间的节点转换忠实且逻辑一致。我们进一步引入了一个基于LLM的用户模拟器和五个新的评估指标,涵盖推理准确性和交互效率。在FLODIAL和PFDial数据集上的大量实验突出了现有基于LLM方法的瓶颈,并展示了FloCA的优越性。
flowchart reasoning faithful reasoning conversational agent graph execution intent understanding
论文聚焦于流图推理的逻辑一致性与忠实性,属于推理能力的核心研究。
Code
The Sufficiency-Conciseness Trade-off in LLM Self-Explanation from an Information Bottleneck Perspective
Ali Zahedzadeh, Behnam Bahrak
德黑兰先进研究学院,德黑兰大学,伊朗
9/10 2026-02-15 cs.CL PDF
大型语言模型越来越多地依赖自我解释(如思维链推理)来提升多步骤问答任务的性能。尽管这些解释能提高准确性,但通常冗长且生成成本高,因此需要探讨真正必要的解释量。本文从信息瓶颈原理出发,将解释视为保留正确答案所需信息的压缩表示。通过构建一个限制解释长度并评估充分性的评估流程,并在ARC挑战数据集上使用多个语言模型进行实验,结果表明更简洁的解释往往仍能保持足够的准确性,而过度压缩则会导致性能下降。此外,实验还扩展至波斯语以验证其在资源有限语言中的适用性。
self-explanation information bottleneck chain of thought explanation compression multi-step reasoning
论文聚焦于LLM的自我解释机制,探讨推理过程中的充分性与简洁性权衡,属于推理能力的核心研究。
Bridging AI and Clinical Reasoning: Abductive Explanations for Alignment on Critical Symptoms
Belona Sonna, Alban Grastien
Australian National University, Canberra, ACT, Australia Université Paris-Saclay, CEA, List, Palaiseau, Grenoble, France
9/10 2026-02-15 cs.AI PDF
人工智能在临床诊断中展现出强大的潜力,其准确性可与或超越人类专家。然而,AI推理常偏离结构化的临床框架,限制了信任度、可解释性和应用。关键症状对于快速准确决策至关重要,但即使预测正确,也可能被AI模型忽视。现有事后解释方法透明度有限且缺乏正式保证。为此,我们采用形式化归纳解释方法,通过最小充分特征集提供一致且可靠的推理,从而清晰理解AI决策并实现与临床推理的对齐。该方法在保持预测准确性的同时,提供了具有临床操作性的见解,为医疗诊断中的可信AI建立了稳健框架。
临床推理 AI解释性 归纳逻辑 医学诊断
论文聚焦于AI在临床推理中的对齐问题,强调形式化归纳解释以提升推理透明性与可信度。
Chain-of-Thought Reasoning with Large Language Models for Clinical Alzheimer's Disease Assessment and Diagnosis
Tongze Zhang, Jun-En Ding, Melik Ozolcer, Fang-Ming Hung, Albert Chih-Chieh Yang et al.
Stevens Institute of Technology, Hoboken, New Jersey Surgical Trauma Intensive Care Unit, Far Eastern Memorial Hospital Institute of Brain Science, National Yang Ming Chiao Tung University Surgical Trauma Intensive Care Unit, National Yang Ming Chiao Tung University
9/10 2026-02-15 cs.CL PDF
阿尔茨海默病(AD)已成为全球普遍的神经退行性疾病。传统的诊断方法仍严重依赖医学影像和医生的临床评估,这在人力专业知识和医疗资源方面往往耗时且耗费资源。近年来,大型语言模型(LLMs)越来越多地应用于医疗领域,使用电子健康记录(EHRs),但其在阿尔茨海默病评估中的应用仍有限,特别是由于AD涉及复杂的多因素病因,难以通过影像学手段直接观察。本文提出利用LLMs对患者的临床EHR进行思维链(CoT)推理。与直接在EHR数据上微调LLMs进行AD分类不同,我们的方法利用LLM生成的CoT推理路径,为模型提供明确的诊断依据,随后进行基于结构化CoT的预测。该流程不仅增强了模型对内在复杂因素的诊断能力,还提高了预测过程在AD不同阶段的可解释性。实验结果表明,所提出的基于CoT的诊断框架显著提升了多个CDR分级任务的稳定性和诊断性能,在F1分数上相比零样本基线方法提高了多达15%。
Chain-of-Thought Alzheimer's Diagnosis Large Language Models Clinical EHRs Medical AI
论文核心研究LLM的Chain-of-Thought推理能力在阿尔茨海默病诊断中的应用,直接涉及推理机制与过程。
Experiential Reinforcement Learning
Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang et al.
南加州大学 微软 宾夕法尼亚州立大学
9/10 2026-02-15 cs.LG PDF
强化学习已成为语言模型从环境奖励或反馈中学习的核心方法。然而,在实践中,环境反馈通常是稀疏且延迟的,这使得学习过程极具挑战性。本文提出了一种名为经验强化学习(Experiential Reinforcement Learning, ERL)的新训练范式,该方法在强化学习过程中嵌入了显式的经验-反思-巩固循环。在给定任务时,模型首先生成初步尝试,接收环境反馈,并基于反馈生成反思以指导后续优化尝试。这一过程将反馈转化为结构化的行为修正,提升了探索效率并稳定了优化过程,同时无需额外推理成本即可保留部署时的性能提升。实验表明,在稀疏奖励控制环境和智能体推理基准测试中,ERL显著优于现有强化学习基线,复杂多步环境中性能提升高达81%,工具使用推理任务中提升达11%。这些结果表明,将显式自我反思整合到策略训练中,为将反馈转化为持久行为改进提供了一种实用机制。
强化学习 自我反思 行为优化 推理能力 经验学习
论文提出通过显式自我反思机制提升强化学习中的推理与行为优化,直接关联到推理能力的改进。
Statistical Early Stopping for Reasoning Models
Yangxinyu Xie, Tao Wang, Soham Mallick, Yan Sun, Georgy Noarov et al.
宾夕法尼亚大学 新泽西州立大学技术学院 华盛顿大学圣路易斯分校
9/10 2026-02-15 cs.AI PDF
尽管大型语言模型(LLMs)在推理能力方面取得了显著进展,但它们有时会过度思考,生成不必要的推理步骤,尤其是在面对模糊或歧义查询时。本文引入了基于统计原理的早停方法,通过在生成过程中监控不确定性信号来缓解这一问题。第一种方法是参数化的,它将不确定性关键词的到达时间建模为更新过程,并应用顺序测试进行停止判断;第二种方法是非参数化的,提供了对良好定义查询过早停止的概率有限样本保证。我们在多个领域和模型上的推理任务中进行了实证评估。结果表明,基于不确定性的早停方法可以提高LLM推理的效率和可靠性,尤其在数学推理任务中效果显著。
early stopping uncertainty estimation reasoning efficiency LLM optimization
论文聚焦于LLM的推理过程,提出基于不确定性的早停机制以提升推理效率和可靠性。
Code
From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design
Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen
Virginia Tech Adobe Research
9/10 2026-02-14 cs.AI PDF
本文提出LaySPA,一种强化学习框架,使大型语言模型(LLMs)具备显式且可解释的空间推理能力,用于内容感知的图形布局设计。LaySPA解决了两个关键挑战:LLMs有限的空间推理能力和设计决策过程的不透明性。通过将布局设计重新表述为结构化文本空间环境中的策略学习问题,LaySPA生成包含可解释推理轨迹和结构化布局规范的双重输出,从而实现透明可控的设计决策。布局设计策略通过多目标空间批评进行优化,将布局质量分解为几何有效性、关系一致性和美学一致性,并使用相对组优化方法训练,以稳定开放设计空间中的学习。实验表明,LaySPA在结构有效性和视觉质量方面优于更大的专有LLMs,并达到与最先进的专用布局生成器相当的性能,同时需要更少的标注样本和更低的延迟。
空间推理 强化学习 布局设计 可解释性 LLM优化
论文聚焦于增强LLM的空间推理能力,属于推理能力的核心研究。
Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach
Amir Hossein Mohammadi, Ali Moeinian, Zahra Razavizade, Afsaneh Fatemi, Reza Ramezani
伊朗伊士法罕大学软件工程系
9/10 2026-02-14 cs.CL PDF
检索增强生成(RAG)是一种通过整合外部知识来增强语言模型事实基础的强大方法。尽管已在大型语言模型中广泛研究,但针对小型语言模型(SLMs)的RAG优化仍是一个关键的研究空白,特别是在需要复杂推理的多跳问答任务中。在这些系统中,提示模板设计是一个关键但尚未充分探索的影响性能的因素。本文通过大规模实证研究探讨这一因素,在HotpotQA数据集上评估了24种不同的提示模板。该集合包括一个标准RAG提示、九种文献中已有的良好结构化技术以及14种新颖的混合变体,并在两个主流SLMs(Qwen2.5-3B Instruct和Gemma3-4B-It)上进行了测试。基于18720个实例的测试集,结果表明,与标准RAG提示相比,Qwen2.5和Gemma3-4B-It的性能分别提升了83%和84.5%,两者均提高了6%。本研究还提供了具体分析和可操作的建议,以设计适用于资源受限环境的高效且有效的基于SLM的RAG系统的提示。
RAG 提示工程 多跳问答 小型语言模型 推理能力
论文聚焦于RAG在多跳问答任务中的性能优化,涉及复杂推理过程,与推理能力密切相关。
Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind
Minyuan Ruan, Ziyue Wang, Kaiming Liu, Yunghwei Lai, Peng Li et al.
Dept. of Comp. Sci. & Tech., Institute for AI, Tsinghua University, Beijing, China
9/10 2026-02-14 cs.CL PDF
大型语言模型(LLMs)在通用和专业任务中广泛应用,但在用户意图表达不明确时仍难以准确理解并响应真实需求,导致主观用户信念与实际环境状态之间出现分歧。解决这一认知分歧需要心智理论(ToM),但现有对LLMs的ToM评估主要集中在孤立的信念推理上,忽视了其在现实交互中的功能价值。为此,本文将ToM形式化为一种检测和解决认知分歧的机制,并提出一个基准enchname,用于评估模型在实践中如何协调用户信念与用户画像。结果表明,11个主流模型在识别阻碍任务成功的潜在认知差距方面存在显著局限。为弥补这一差距,我们进一步构建了一个基于轨迹的ToM数据集,将信念追踪与任务相关状态推断相结合。基于该数据集进行强化学习训练的模型在推理用户心理状态方面表现出持续改进,从而提升了下游任务性能。本研究突显了ToM作为交互层面关键机制的实用价值,而非仅作为独立的推理技能。
心智理论 认知分歧 推理能力 用户-代理交互 强化学习
论文聚焦于通过心智理论(ToM)解决用户与Agent之间的认知分歧,属于推理能力的核心研究。
Code
Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?
Lve Meng, Weilong Zhao, Yanzhi Zhang, Haoxiang Guan, Jiyan He
中国科学院大学 法国巴黎第十一大学
9/10 2026-02-14 cs.AI PDF
近年来,大型语言模型(LLMs)在生成严谨数学证明方面取得了显著进展,'AI for Math'已成为一个充满活力的研究领域。尽管这些模型已掌握国际数学奥林匹克竞赛等竞争性基准,并通过自动形式化在研究应用中展现出潜力,但其在研究问题上的轻量级自然语言流程部署仍鲜有探索。本文表明,下一代模型(如Gemini 3 Pro、GPT-5.2 Pro)集成到优化的基于引用验证的自动化流程中,能够解决复杂的研究级数学问题。我们在两个新数据集上评估了该流程:(1)由顶尖数学家提出的ICCM问题集(类似于丘成桐大学生数学竞赛),以及(2)包含未发表研究问题的“First Proof”问题集。我们的流程为前两个ICCM问题集和“First Proof”问题集的所有问题生成了候选证明。前两个ICCM问题集和“First Proof”问题集第4题的解决方案已被我们团队完全验证。所有生成的证明均已提交给官方组织,结果公开可用。我们计划在未来适时开源完整的流程方法。
数学推理 自动证明生成 LLM验证 研究级问题解决
论文聚焦于LLM在解决高阶数学问题中的推理能力,涉及自动证明生成与验证。
Code
PT-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Papers
Rui Yu, Tianyi Wang, Ruixia Liu, Yinglong Wang
齐鲁工业大学(山东省科学院) 新加坡国立大学
9/10 2026-02-14 cs.IR PDF
检索增强生成(RAG)在长篇学术论文的问答任务中应用日益广泛,其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构块,破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行,导致上下文碎片化、token被错误分配到非证据区域,并增加下游语言模型的推理负担。为解决这些问题,本文提出PT-RAG,一种基于学术论文原生层次结构作为低熵检索先验的RAG框架。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引,防止源端熵增加;然后设计路径引导检索机制,在固定token预算下对齐查询语义并选择高相关性的根到叶路径,从而获得紧凑、连贯且低熵的检索上下文。与现有RAG方法相比,PT-RAG避免了破坏性预处理引起的熵增加,并为后续检索提供原生低熵结构基础。为评估该设计,本文引入基于熵的结构诊断方法,量化检索碎片化和证据分配准确性。在三个学术问答基准测试中,PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线,表明其减少了上下文碎片化并更精确地分配到证据区域。这些结构优势直接提升了答案质量。
RAG 信息检索 结构化数据 学术问答 推理优化
论文聚焦于提升LLM在学术问答中的推理能力,通过结构保真检索增强生成减少上下文碎片化。
The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning
Henry Han, Xiyang Liu, Xiaodong Wang, Fei Han, Xiaodong Li
威斯康星大学麦迪逊分校计算机科学与工程学院,美国威斯康星州麦迪逊市 清华大学计算机科学与技术系,中国北京 北京电子科技学院通信工程系,中国北京
9/10 2026-02-14 cs.AI PDF
神经网络的扩展定律为AI进步提供了一种可预测的方案:降低数值精度应能线性提升计算效率和能耗表现(E与位数成正比)。本文证明,在多跳推理的背景下,这一扩展定律失效。我们揭示了一个‘量化陷阱’,即从16位精度降至8/4位时,反而会增加净能耗并降低推理准确性。我们通过严格的理论分析指出,这种失败源于硬件转换开销以及反量化内核的隐藏延迟成本,这些因素在顺序推理链中成为主要瓶颈,还涉及顺序能量摊销失败。因此,扩展定律的失效在实践中是不可避免的。我们的研究结果表明,行业普遍采用的‘越小越好’启发式方法,对于复杂推理任务而言在数学上是低效的。
多跳推理 量化陷阱 计算效率 能耗分析 推理能力
论文聚焦于多跳推理中的量化陷阱,直接涉及LLM的推理能力与效率问题。
A First Proof Sprint
Joseph Corneli
Hyperreal Enterprises Ltd
9/10 2026-02-14 cs.AI PDF
本文报告了一次多智能体参与的证明冲刺,针对十个研究级问题,结合快速草稿生成与对抗性验证、定向修复和显式来源追踪。该工作流程利用声明依赖关系的连线图分解来定位缺陷并协调审阅者驱动的修订。最终结果异构但明确:手稿区分了数学状态与QC验证状态。在数学层面,问题3在所用范围内具有完整的验证存在路径(唯一性/不可约性视为可选),问题5在有限范围内解决了$F_O$-局部连接谱问题,问题10在明确假设下有条件成立(当假设被移除时有显式必要反例),而问题4和6在一般情况下部分解决,仍存在未完成义务(包括问题6中无条件的$K_n$结果,当$c_0 = 1/3$)。问题7通过旋转路线定理链暂定关闭,待独立账本重新检查。在QC层,问题7和9具有节点级验证工件,但仍存在未解决的验证者缺口。主要方法论结果是结构感知验证和跨层切换策略提高了压缩证明冲刺的可靠性和校准度。
多智能体协作 数学证明 验证与修复 推理能力 结构感知验证
论文聚焦于多智能体协作解决数学证明问题,强调推理、验证与修复过程,属于推理能力的核心研究。
Code
Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning
Yanbo Wang, Minzheng Wang, Jian Liang, Lu Wang, Yongcan Yu et al.
中国科学院自动化研究所模式识别国家重点实验室
9/10 2026-02-14 cs.CR PDF
尽管推理模型在复杂推理任务中取得了显著成功,但其不断增强的能力需要严格的安全措施。对于安全对齐,核心挑战在于安全与效用之间的固有权衡。然而,现有的对齐策略通常通过上下文蒸馏构建显式安全规则的CoT训练数据,这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡,我们提出了自适应安全上下文学习(ASCL)框架,以在适当上下文中提升推理能力。ASCL将安全对齐表述为多轮工具使用过程,使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外,为应对强化学习中对规则咨询的偏好,我们引入了逆频率策略优化(IFPO)以重新平衡优势估计。通过解耦规则检索和后续推理,我们的方法相比基线实现了更高的整体性能。
安全对齐 推理能力 上下文学习 强化学习 LLM对齐
论文聚焦于提升LLM的推理能力,同时解决安全与效用的权衡问题,属于推理能力的核心研究。
Arming Data Agents with Tribal Knowledge
Shubham Agarwal, Asim Biswal, Sepanta Zeighami, Alvin Cheung, Joseph Gonzalez et al.
UC Berkeley
9/10 2026-02-13 cs.DB PDF
自然语言到SQL(NL2SQL)翻译使非专家用户能够通过自然语言查询关系数据库。近年来,借助大语言模型(LLMs)的推理能力,NL2SQL代理在该任务上取得了显著进展。然而,面对大规模真实世界数据库时,这些代理仍会因缺乏正确利用底层数据的知识(如各列意图)而产生错误。先前的研究尝试生成关于数据库的事实以提供更多信息,但未能解决代理的误解问题。本文提出Tk-Boost框架,通过“部落知识”增强任何NL2SQL代理,即基于使用数据库的经验积累的、用于纠正代理误解的知识。Tk-Boost首先让代理回答一些查询,分析其错误以识别误解,并生成针对性知识。为实现精准检索,Tk-Boost用适用条件索引这些知识。在回答新查询时,Tk-Boost利用这些知识向代理反馈,从而在SQL生成过程中纠正误解,提高准确性。实验表明,在Spider 2.0和BIRD基准测试中,Tk-Boost分别提升了16.9%和13.7%的准确率。
NL2SQL LLM推理 知识增强 数据库查询 错误纠正
论文聚焦于提升LLM在NL2SQL任务中的推理能力,通过纠正其对数据库的误解来增强准确性。
Consistency of Large Reasoning Models Under Multi-Turn Attacks
Yubo Li, Ramayya Krishnan, Rema Padman
卡内基梅隆大学
9/10 2026-02-13 cs.AI PDF
具有推理能力的大型语言模型在复杂任务中表现出色,但其在多轮对抗压力下的鲁棒性仍鲜有研究。本文评估了九种前沿推理模型在对抗攻击下的表现。研究发现,推理能力提供了有意义但不完全的鲁棒性:大多数推理模型显著优于指令调优的基础模型,但都表现出不同的脆弱性特征,误导性建议普遍有效,而社会压力的效果因模型而异。通过轨迹分析,我们识别出五种失败模式(自我怀疑、社会顺从、建议劫持、情感易感性和推理疲劳),其中前两种占失败案例的50%。进一步研究表明,适用于标准LLM的置信度感知响应生成(CARG)方法对推理模型无效,因为扩展的推理过程导致过度自信;反直觉的是,随机置信度嵌入优于目标提取。结果表明,推理能力并不自动带来对抗鲁棒性,基于置信度的防御机制需要为推理模型进行根本性重新设计。
对抗攻击 推理鲁棒性 失败模式分析 置信度处理
论文聚焦于大型推理模型在多轮对抗下的表现,直接探讨其推理能力与鲁棒性问题。
TraceBack: Multi-Agent Decomposition for Fine-Grained Table Attribution
Tejas Anvekar, Junha Park, Rajat Jha, Devanshu Gupta, Poojah Ganesan et al.
Arizona State University Adobe Research
9/10 2026-02-13 cs.CL PDF
结构化表格上的问答任务不仅需要准确的答案,还需要明确哪些单元格支持这些答案。现有系统很少提供细粒度的归因信息,导致即使答案正确也缺乏可验证的依据,限制了其在高风险场景下的可信度。本文提出TraceBack,一个模块化的多智能体框架,用于单表问答中的可扩展、单元格级别的归因。TraceBack通过剪枝表格以保留相关行和列,将问题分解为语义连贯的子问题,并将每个答案片段与其支持的单元格对齐,捕捉中间推理步骤中使用的显式和隐式证据。为了实现系统评估,我们发布了CITEBench基准测试集,包含从ToTTo、FetaQA和AITQA中提取的短语到单元格的标注数据。此外,我们还提出了FairScore,一种无需参考答案的指标,通过比较预测单元格和答案中推导出的原子事实来估计归因的精确率和召回率。实验表明,TraceBack在多个数据集和粒度上显著优于现有基线方法,而FairScore能够紧密跟踪人类判断并保持方法间的相对排名,支持对基于表格的问答进行可解释且可扩展的评估。
表格问答 多智能体系统 细粒度归因 推理能力 可解释性
论文聚焦于表格问答中的推理过程与细粒度归因,涉及中间推理步骤的显式和隐式证据捕捉。
Code
Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng
上海交通大学 上海人工智能实验室
9/10 2026-02-13 cs.LG PDF
基于可验证奖励的强化学习(RLVR)通过采样轨迹训练大型语言模型(LLMs),使解码策略成为学习过程的核心组成部分,而非单纯的推理时选择。采样温度直接影响探索与利用的权衡,但现有方法依赖静态值或启发式调整,与任务级奖励脱节。本文提出Introspective LLM,一种分层强化学习框架,能够在生成过程中学习控制采样温度。在每个解码步骤中,模型根据其隐藏状态选择温度,并从结果分布中采样下一个标记。温度和标记策略通过坐标上升方案联合优化,以下游奖励为依据。在数学推理基准测试中的实验表明,所学温度策略优于固定和启发式基线,并表现出与推理不确定性一致的可解释探索行为。
强化学习 温度策略 数学推理 LLM优化
论文聚焦于通过温度策略提升LLM的推理能力,直接关联到数学推理任务中的探索与利用平衡。
Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models
Hao Chen, Ye He, Yuchun Fan, Yukun Yan, Zhenghao Liu et al.
哈尔滨工业大学( Northeastern University, Tsinghua University )
9/10 2026-02-13 cs.CL PDF
知识增强显著提升了大语言模型(LLMs)在知识密集型任务中的表现。然而,现有方法通常基于一个简单的前提,即模型性能等同于内部知识,忽视了导致过度自信错误或不确定真相的知识-置信度差距。为弥合这一差距,本文提出了一种新的元认知框架,通过差异化的干预和对齐实现可靠的知识增强。该方法利用内部认知信号将知识空间划分为已掌握、困惑和缺失区域,指导有针对性的知识扩展。此外,我们引入了一种认知一致性机制,以同步主观置信度与客观准确性,确保校准后的知识边界。大量实验表明,我们的框架在多个基准测试中始终优于强基线,验证了其不仅提升知识能力,还能促进更好区分已知与未知的认知行为。
知识增强 元认知 认知一致性 推理能力 知识边界校准
论文聚焦于知识增强与认知一致性,直接关联LLM的推理能力与知识边界校准。
G2CP: A Graph-Grounded Communication Protocol for Verifiable and Efficient Multi-Agent Reasoning
Karim Ben Khaled, Davy Monticolo
洛林大学
9/10 2026-02-13 cs.MA PDF
由大型语言模型驱动的多智能体系统面临关键挑战:智能体通过自然语言进行通信,导致语义漂移、幻觉传播和低效的token消耗。本文提出G2CP(基于图的通信协议),一种结构化的智能体通信语言,其中消息以图操作而非自由文本的形式进行交换。智能体在共享知识图谱上交换显式的遍历命令、子图片段和更新操作,从而实现可验证的推理轨迹并消除歧义。我们在一个工业知识管理系统中验证了G2CP,其中专门的智能体(诊断、程序、合成和摄入)协同回答复杂查询。在500个工业场景和21个真实维护案例中的实验结果表明,G2CP将智能体间通信token减少了73%,任务完成准确率比自由文本基线提高了34%,消除了级联幻觉,并生成了完全可审计的推理链。G2CP代表了从语言到结构化通信在多智能体系统中的根本转变,对任何需要精确智能体协调的领域都有重要意义。
多智能体系统 知识图谱 结构化通信 推理能力 可验证性
论文聚焦于多智能体系统的可验证推理,通过结构化通信协议提升推理效率和准确性。
Code
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng et al.
Nanbeige LLM Lab
9/10 2026-02-13 cs.AI PDF
本文提出Nanbeige4.1-3B,一种仅使用30亿参数即可实现强大代理行为、代码生成和通用推理能力的统一通用语言模型。据我们所知,这是首个在单一模型中实现如此多功能性的开源小型语言模型(SLM)。为提升推理能力和偏好对齐,我们结合了点对点和成对奖励建模,确保高质量且符合人类偏好的响应。在代码生成方面,我们设计了复杂度感知奖励机制,在强化学习中优化正确性和效率。在深度搜索中,我们进行了复杂数据合成,并在训练过程中引入回合级监督。这使得Nanbeige4.1-3B能够稳定地进行长期工具交互,可靠地执行多达600次工具调用以解决复杂问题。大量实验结果表明,Nanbeige4.1-3B显著优于同类规模的先前模型,如Nanbeige4-3B-2511和Qwen3-4B,甚至在性能上超越了更大的模型,如Qwen3-30B-A3B。我们的结果表明,小型模型可以同时实现广泛的能力和强大的专业性,重新定义了30亿参数模型的潜力。
推理能力 强化学习 代码生成 偏好对齐 工具调用
论文重点研究模型的推理能力、偏好对齐及代码生成,强调推理与复杂问题解决。
Code
BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
Jiangxi Chen, Qian Liu
上海交通大学
9/10 2026-02-13 cs.CL PDF
本文提出了BaziQA-Benchmark,一个用于评估大型语言模型在符号推理和时间组合推理方面表现的标准基准。该基准来源于2021年至2025年全球占卜师竞赛中精心挑选的200道多项选择题,每道题目都需要基于固定的符号图表进行结构化推理,并处理相互作用的时间条件。与轶事或提示驱动的评估不同,BaziQA-Benchmark能够实现客观评分并在不同年份、领域和模型家族之间进行受控比较。我们对当前的语言模型进行了多轮设置下的评估,并分析了其在时间难度、推理领域和推理协议方面的性能变化。为进一步探究推理行为,我们引入了一种轻量级的结构化推理协议,该协议通过约束推理顺序而不增加领域知识来限制推理过程。结果表明,模型的表现始终优于随机猜测,但距离饱和仍有较大差距,表现出对时间组合和推理顺序的高度敏感性,以及在精确时间定位和多条件符号判断方面的系统性失败。
符号推理 时间组合推理 基准测试 大语言模型评估
论文聚焦于评估LLM的符号推理与时间组合推理能力,属于推理能力的核心研究。
Code
BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan et al.
PKU OUC CASIA THU
9/10 2026-02-13 cs.AI PDF
随着多模态大语言模型(MLLMs)在规划和工具使用能力上的不断提升,它们正逐渐演变为能够在开放世界环境中执行多模态网页浏览和深度搜索的自主代理。然而,现有的多模态浏览基准在任务复杂性、证据可访问性和评估粒度方面仍存在局限,阻碍了对深度搜索能力进行全面且可复现的评估。为了解决这些问题,我们提出了BrowseComp-$V^3$,这是一个包含300个精心挑选且具有挑战性问题的新颖基准,覆盖多个领域。该基准强调深层、多层级和跨模态的多跳推理,关键证据在文本和视觉模态中交错分布。所有支持证据必须严格公开可搜索,以确保公平性和可复现性。除了最终答案的准确性,我们还引入了一种专家验证的子目标驱动过程评估机制,能够对中间推理行为进行细粒度分析,并系统地表征能力边界。此外,我们提出了OmniSeeker,一个统一的多模态浏览代理框架,集成了多样化的网络搜索和视觉感知工具。全面实验表明,即使最先进的模型在本基准上的准确率也只有36%,揭示了多模态信息整合和细粒度感知方面的关键瓶颈。我们的结果突显了当前模型能力与现实场景中稳健多模态深度搜索之间的根本差距。
多模态推理 深度搜索 基准测试 跨模态信息整合 多跳推理
论文聚焦于多模态搜索中的深层、跨模态推理,强调多层级和跨模态的多跳推理机制。
TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)
Zhan Qu, Michael Färber
德国德累斯顿工业大学计算机科学系
9/10 2026-02-13 cs.LG PDF
大型语言模型(LLMs)虽然包含丰富的医学知识,但在处理长期患者轨迹时表现不佳,因为不断变化的临床状态、不规则的时间间隔和异构事件会随着时间推移降低性能。现有的适应策略依赖于微调或基于检索的增强方法,这会引入计算开销、隐私限制或长上下文下的不稳定性。本文提出TRACE框架,通过显式结构化和维护上下文,而非扩展上下文窗口或更新参数,使冻结的LLM具备时间临床推理能力。TRACE采用双记忆架构,包括静态的全局协议(编码机构临床规则)和动态的个体协议(跟踪患者特定状态)。四个智能体组件——路由器、推理器、审计员和守护者——协同工作以支持时间推理和状态演化。该框架通过结构化状态压缩保持有限的推理成本,并选择性地审计关键临床决策。在MIMIC-IV的纵向临床事件流上评估,TRACE显著提升了未来事件预测准确性、协议遵循度和临床安全性,同时生成可解释和可审计的推理过程。
时间推理 医疗健康 智能体系统 上下文管理 临床决策
论文核心聚焦于LLM在时间推理上的能力提升,特别是针对临床数据流的时序推理。
VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.
Tongyi Lab, Alibaba Group
9/10 2026-02-13 cs.CV PDF
有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统检索增强生成(RAG)方法依赖线性交互历史,难以处理长上下文任务,尤其是在涉及信息稀疏但token密集的视觉数据的迭代推理场景中。为解决这一问题,我们提出了VimRAG框架,专门用于文本、图像和视频的多模态检索增强推理。受系统性研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于此结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆节点的重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃次要线索。为此,我们提出了一种图引导的策略优化方法,该方法通过剪枝与冗余动作相关的记忆节点,将步骤级有效性与轨迹级奖励解耦,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进的性能。
多模态推理 检索增强生成 图神经网络 智能体系统
论文聚焦于多模态信息的检索与推理,提出动态图结构建模推理过程,属于推理能力的核心研究。
Code
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian et al.
ByteDance XiaoHe Medical AI
9/10 2026-02-13 cs.CL PDF
本文提出MedXIAOHE,一种面向实际临床应用的医学视觉-语言基础模型,旨在提升通用医学理解和推理能力。该模型在多个医学基准测试中取得最先进的性能,并超越了多个领先的封闭源多模态系统。为实现这一目标,作者提出了一种基于实体感知的持续预训练框架,用于组织异构医学语料库以扩大知识覆盖范围并减少长尾差距(如罕见疾病)。为实现医学专家级别的推理与交互,MedXIAOHE通过强化学习和工具增强的智能体训练,整合了多样化的医学推理模式,支持多步骤诊断推理并提供可验证的决策轨迹。为提高实际应用中的可靠性,MedXIAOHE集成了用户偏好准则、基于证据的推理以及低幻觉的长篇报告生成,并提升了对医学指令的遵循度。本文发布此报告以记录实际设计选择、扩展见解及评估框架,希望激发进一步的研究。
医学多模态模型 推理能力 持续预训练 智能体训练 诊断推理
论文重点研究了医学领域的推理能力,包括多步骤诊断推理和可验证决策追踪。
Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.
Fudan University Tencent Hunyuan Linus
9/10 2026-02-13 cs.AI PDF
大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖固定的认知模式:非思考模型生成即时响应,而思考模型则统一进行深度推理。这种刚性结构对于需要逐步变化认知需求的长期任务效率低下。本文提出CogRouter框架,训练代理在每一步动态适应认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。采用两阶段训练方法,包括认知感知监督微调(CoSFT)和认知感知策略优化(CoPO),通过置信度感知的优势重加权实现步骤级信用分配。关键见解是适当的认知深度应最大化行动结果的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token数量减少了62%。
认知深度自适应 ACT-R理论 推理优化 代理训练
论文聚焦于LLM代理在不同步骤中动态调整认知深度,直接涉及推理能力的提升与优化。
Code
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
Xin-Qiang Cai, Masashi Sugiyama
RIKEN AIP, Tokyo, Japan The University of Tokyo, Tokyo, Japan
9/10 2026-02-13 cs.LG PDF
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的主流范式,但其对外部验证器的依赖限制了其可扩展性。近期研究表明,RLVR主要通过激发模型潜在能力起作用,这促使了无验证器算法的发展。然而,在这种设置下,标准方法如组相对策略优化面临关键挑战:破坏性的梯度方差常导致训练崩溃。为了解决这一问题,我们提出了无验证器课程强化学习(VI-CuRL),该框架利用模型的内在置信度构建独立于外部验证器的课程。通过优先处理高置信度样本,VI-CuRL有效管理偏差-方差权衡,特别针对动作和问题方差的减少。我们提供了严格的理论分析,证明我们的估计器保证了渐近无偏性。实证表明,VI-CuRL在六个具有挑战性的基准测试中促进了稳定性,并在有/无验证器的情况下始终优于无验证器基线。
强化学习 推理能力 课程学习 方差控制
论文聚焦于增强LLM推理能力的RLVR方法,提出新的框架解决训练稳定性问题。
Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL
Xubang Xiong, Raymond Chi-Wing Wong, Yuanfeng Song
清华大学
9/10 2026-02-13 cs.DB PDF
NoSQL数据库因其灵活性和可扩展性被广泛应用于大数据分析、地理空间应用和医疗保健服务。然而,查询NoSQL数据库需要专业的技术知识,给用户带来了较高的使用门槛。尽管近期研究探索了文本到NoSQL的问题,但主要集中在单轮交互上,忽略了现实世界中查询的对话性质。为此,本文引入了对话式文本到NoSQL任务,该任务根据自然语言问题、NoSQL数据库及对话历史生成NoSQL查询。为解决此任务,我们提出了Stage-MCTS框架,通过将查询生成建模为搜索问题,赋予小语言模型(SLMs)特定于NoSQL的推理能力。该框架采用基于规则奖励引导的蒙特卡洛树搜索(MCTS)生成逐步推理数据,并结合渐进监督微调(SFT)和自训练策略。此外,我们构建了CoNoSQL数据集,包含超过2000个对话和150个数据库,以支持评估。实验表明,我们的方法优于最先进的大型推理模型,在执行值匹配(EVM)准确性方面提升了高达7.93%。
Monte Carlo Tree Search Reasoning Path Refinement Conversational Text-to-NoSQL Small Language Models Query Generation
论文核心围绕推理能力展开,提出基于MCTS的推理路径优化方法以提升SLM在对话式文本到NoSQL查询任务中的表现。
To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li et al.
Samsung Research, Beijing, China Peking University
9/10 2026-02-13 cs.AI PDF
可验证奖励强化学习(RLVR)在激发大语言模型(LLMs)显式推理能力方面起着关键作用。通过RLVR,我们可以在某些特定领域(如编程或数学)实现专家级性能。当需要构建一个通用的多领域专家级模型时,必须仔细考虑跨不同领域的RLVR协作。当前最先进的模型主要采用两种不同的训练范式进行多领域RLVR:混合多任务RLVR和独立RLVR后合并模型。然而,大多数工作并未对这些范式进行详细比较和分析。为此,我们选择了多个常用的高层任务(如数学、编程、科学和指令遵循)作为目标领域,并使用开源数据集设计了广泛的定性和定量实验。我们发现跨领域的RLVR表现出很少的相互干扰,而推理密集型领域则表现出相互协同效应。此外,我们从权重空间几何、模型预测行为和信息约束的角度分析了这种互惠效应的内部机制。该项目命名为M2RL,意为混合多任务训练或独立训练后合并的强化学习方法。
强化学习 多领域推理 模型合并 可验证奖励 LLM推理能力
论文聚焦于强化学习对LLM推理能力的提升,涉及多领域推理协同与互惠效应,是推理能力的核心研究。
Code
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha et al.
斯坦福大学 Meta 超智能实验室 南洋理工大学
9/10 2026-02-12 cs.CV PDF
统一模型能够在单一架构中处理多模态理解和生成任务,但通常仅进行单次推理而无迭代优化。许多复杂的多模态任务需要分解指令、验证中间结果并进行迭代修正。尽管测试时扩展(TTS)已被证明能显著提升语言模型性能,但将其扩展到统一多模态模型仍是一个挑战。本文提出UniT框架,实现多模态链式思维的测试时扩展,使单一统一模型能够进行多轮推理、验证与优化。该框架结合代理数据合成、统一模型训练和灵活的测试时推理,激发包括验证、子目标分解和内容记忆等认知行为。主要发现包括:(1) 在短推理轨迹上训练的统一模型可推广至更长的推理链;(2) 顺序链式推理比并行采样更具可扩展性和计算效率;(3) 在生成和编辑轨迹上训练可提升分布外视觉推理能力。这些结果确立了多模态测试时扩展作为推动统一模型生成与理解的有效范式。
多模态推理 链式思维 测试时扩展 统一模型
论文聚焦于多模态模型的推理能力提升,提出通过迭代推理和链式思维进行测试时扩展。
On-Policy Context Distillation for Language Models
Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei
Microsoft Research
9/10 2026-02-12 cs.CL PDF
上下文蒸馏使语言模型能够将上下文知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,该框架通过在学生模型自身生成的轨迹上进行训练,并最小化与基于上下文的教师模型之间的反向Kullback-Leibler散度,将策略蒸馏与上下文蒸馏相结合。我们在两个重要应用中验证了OPCD的有效性:经验知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;以及系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。我们进一步表明,OPCD可以实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验知识。
知识蒸馏 推理能力 数学推理 上下文学习
论文聚焦于语言模型的推理能力提升,通过上下文蒸馏增强模型在数学推理等任务中的表现。
Think like a Scientist: Physics-guided LLM Agent for Equation Discovery
Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad, Sharvaree Vadgama, Rose Yu
UCSD
9/10 2026-02-12 cs.AI PDF
通过符号化、可解释的公式解释观察到的现象是科学的基本目标。近年来,大语言模型(LLMs)因其广泛的领域知识和强大的推理能力,成为符号方程发现的有前途的工具。然而,大多数现有的基于LLM的系统试图直接从数据中猜测方程,而没有建模科学家通常遵循的多步骤推理过程:首先推断物理属性如对称性,然后利用这些属性作为先验条件来限制候选方程的空间。本文引入了KeplerAgent,一个遵循这一科学推理过程的代理框架。该代理协调基于物理的工具以提取中间结构,并利用这些结果配置符号回归引擎(如PySINDy和PySR),包括其函数库和结构约束。在一系列物理方程基准测试中,KeplerAgent在符号准确性方面显著优于LLM和传统基线方法,并且对噪声数据具有更高的鲁棒性。
symbolic regression scientific reasoning physics-guided LLM equation discovery
论文聚焦于LLM的科学推理过程,强调符号公式发现中的多步逻辑推理机制。
Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education
Mohamed Huti, Alasdair Mackintosh, Amy Waldock, Dominic Andrews, Maxime Lelièvre et al.
Fab AI
9/10 2026-02-12 cs.CL PDF
尽管AI模型在文本推理方面取得了最先进的成果,但其在空间和关系结构上的推理能力仍是一个关键瓶颈,尤其是在依赖视觉的小学数学教育中。本文介绍了视觉推理基准(VRB),这是一个用于评估多模态大语言模型(MLLMs)解决课堂真实视觉问题能力的新数据集。该基准基于来自赞比亚和印度小学考试的701个问题,涵盖类比推理、模式补全和空间匹配等任务。研究方法有意使用未经编辑且文字极少的图像,以测试模型是否能满足小学教育的实际需求。研究发现,模型在静态技能如计数和缩放上表现较好,但在折叠、反射和旋转等动态操作上存在明显的“空间天花板”。这些弱点可能影响课堂中视觉推理问题的教学效果,因此像VRB这样的教育导向基准对于确定多模态工具在课堂中的功能边界至关重要。
视觉推理 多模态模型 教育评估 空间认知 小学数学
论文聚焦于视觉推理能力评估,直接涉及LLM在空间和关系结构上的推理瓶颈。
Statistical Parsing for Logical Information Retrieval
Greg Coppola
PhD
9/10 2026-02-12 cs.AI PDF
在先前的研究中(Coppola, 2024),我们引入了量化布尔贝叶斯网络(QBBN),这是一种实现自然演绎前向片段的概率因子图逻辑图形模型。该工作存在两个不足:缺乏否定/反向推理,以及缺少自然语言解析器。本文从推理、语义和语法三个层面弥补了这两个不足。在推理方面,我们通过引入NEG因子扩展了QBBN,使P(x) + P(neg x) = 1,并通过反向lambda消息实现逆否推理(modus tollens),从而完善了Prawitz的简单消去规则。系统处理了涵盖22种推理模式的44个测试用例。在语义方面,我们提出了一种带有角色标注谓词、模态量词和三层次表达能力的类型化逻辑语言。在语法方面,我们提出了一个类型槽语法,能够确定性地将句子编译为逻辑形式(33/33正确,无歧义)。LLMs在消歧方面表现良好(95% PP连接准确率),但无法直接生成结构化解析(UAS为12.4%),证明语法是必要的。架构上,LLM进行预处理,语法进行解析,LLM重新排序,QBBN进行推理。我们认为这调和了形式语义与Sutton的“苦涩教训”(2019):LLMs消除了导致形式NLP失败的注释瓶颈,作为注释者,而QBBN则作为验证者。
逻辑推理 自然语言解析 概率图模型 形式语义 LLM与符号系统结合
论文重点研究逻辑推理机制,包括否定、反向推理及自然语言解析,与推理能力密切相关。
Code
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang et al.
上海人工智能实验室
9/10 2026-02-12 cs.AI PDF
大型语言模型(LLMs)在推理能力方面表现出色,但在科学推理任务中仍存在脆弱性,主要由于解决方案评估不可靠且验证策略多样性有限。本文提出Sci-CoE,一种两阶段的科学共进化框架,使模型能够在从稀疏监督过渡到无监督学习的过程中,同时作为求解器和验证器进行自我进化。第一阶段中,模型利用少量标注数据为验证器建立基础正确性判断锚点;第二阶段引入几何奖励机制,综合考虑共识性、可靠性和多样性,推动大规模无标签数据的自迭代。实验表明,Sci-CoE提升了复杂推理能力并具有良好的可扩展性,有助于构建更稳健和多样的评估系统。
科学推理 共进化 几何共识 稀疏监督 验证机制
论文聚焦于科学推理能力的提升,提出共进化框架以增强LLM的推理与验证机制。
Code
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
Wancai Zheng, Hao Chen, Xianlong Lu, Linlin Ou, Xinyi Yu
浙江大学
9/10 2026-02-12 cs.RO PDF
物体导航是具身智能的核心能力,使智能体能够在未知环境中定位目标物体。尽管视觉-语言模型(VLM)的进步推动了零样本物体导航(ZSON)的发展,但现有方法通常依赖于场景抽象,将环境转换为语义地图或文本表示,导致高层决策受限于底层感知的准确性。本文提出3DGSNav,一种新颖的ZSON框架,通过将3D高斯点绘(3DGS)作为VLM的持久记忆,以增强空间推理能力。通过主动感知,3DGSNav逐步构建环境的3DGS表示,实现轨迹引导的自由视角渲染和前沿感知的第一人称视图。此外,我们设计了结构化视觉提示,并将其与思维链(CoT)提示相结合,进一步提升VLM的推理能力。在导航过程中,实时目标检测器筛选潜在目标,而由VLM驱动的主动视角切换执行目标重新验证,确保高效且可靠的识别。在多个基准测试和四足机器人上的实际实验表明,该方法在鲁棒性和性能方面均优于现有先进方法。
视觉-语言模型 空间推理 3D高斯点绘 物体导航 主动感知
论文重点提升VLM的空间推理能力,通过3DGS增强感知与决策的关联性,属于推理能力的核心研究。
Code
STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction
Xiaoxiao Wang, Chunxiao Li, Junying Wang, Yijin Guo, Zijian Chen et al.
复旦大学上海人工智能实验室 上海交通大学
9/10 2026-02-12 cs.AI PDF
随着对大型模型进行全面评估的成本变得过高,从有限观察中预测模型性能变得至关重要。然而,现有的统计方法在模式变化、数据稀疏性和缺乏解释性方面存在困难,而纯粹的LLM方法则不可靠。本文提出STAR框架,该框架将数据驱动的统计期望与知识驱动的智能体推理相结合。STAR利用专门的检索器获取外部知识,并将语义特征嵌入到约束概率矩阵分解(CPMF)中,以生成带有不确定性的统计期望。然后,一个由期望违反理论(EVT)指导的推理模块通过家族内分析、跨模型比较和可信度感知聚合来优化预测,产生可追溯的解释。大量实验表明,STAR在基于分数和基于排名的指标上均优于所有基线,在极端稀疏条件下,其总分比最强的统计方法提高了14.46%,每个测试模型仅需1-2个观测分数。
模型性能预测 统计与智能体推理结合 不确定性建模 可解释性AI
论文聚焦于通过结合统计推理与智能体推理提升模型性能预测,核心涉及推理能力的增强。
Code
WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models
Yangzhuo Li, Shengpeng Ji, Yifu Chen, Tianle Liang, Haorong Ying et al.
厦门大学 香港中文大学 浙江大学
9/10 2026-02-12 cs.CL PDF
随着先进推理能力在语音对话模型中的快速集成,领域迫切需要超越简单交互、应对现实复杂性的基准。然而,当前评估主要遵循文本生成标准,忽视了副语言和口语化表达的独特音频特性以及现代智能体所需的认知深度。为此,我们引入了WavBench,一个全面的基准,用于评估现有研究未能覆盖的真实对话能力。WavBench构建了一个三部分框架:1)Pro子集,通过显著增加难度来严格挑战增强推理能力的模型;2)Basic子集,定义了一种新的口语化表达标准,优先考虑自然词汇、语言流畅性和互动亲和力,而非严格的书面准确性;3)Acoustic子集,涵盖显式理解、生成和隐式对话,以严格评估真实场景下的综合副语言能力。通过对五种最先进模型的评估,WavBench为复杂问题解决、口语化表达和副语言保真度的交叉点提供了关键见解,指导稳健语音对话模型的发展。
语音对话模型 推理能力 副语言理解 口语化表达 基准测试
论文聚焦于对话模型的推理能力,设计了专门评估复杂推理、口语表达和副语言理解的基准。
Code
Perceptual Self-Reflection in Agentic Physics Simulation Code Generation
Prashant Shende, Bradley Camburn
新加坡理工大学设计学院
9/10 2026-02-12 cs.SE PDF
本文提出了一种多代理框架,用于从自然语言描述中生成物理模拟代码,并引入了一种新颖的感知自反思机制进行验证。系统包含四个专业代理:自然语言解释器、技术需求生成器、物理代码生成器和物理验证器。关键创新在于感知验证,通过视觉语言模型分析渲染动画帧,而非直接检查代码结构,从而解决传统测试无法检测的语法正确但物理行为错误的问题。实验覆盖七个领域,结果显示该架构在多数场景中显著优于单次生成基线,具有稳定的流水线能力和较低的成本。结果验证了将视觉模拟输出反馈给视觉语言模型进行迭代优化在物理模拟任务中的优越性,并突显了代理AI在工程工作流和物理数据生成中的潜力。
物理模拟 多代理系统 视觉语言模型 代码生成 自反思机制
论文提出感知自反思机制,用于验证物理模拟代码的准确性,涉及推理与逻辑验证。
Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication
Antonin Sulc
劳伦斯伯克利国家实验室 美国加州大学伯克利分校
9/10 2026-02-12 cs.AI PDF
随着多智能体AI系统从简单的聊天机器人发展为自主群体,调试语义失败需要对知识、信念、因果关系和义务进行推理,而这正是模态逻辑所设计的形式化内容。然而,传统模态逻辑需要手动指定在实际系统中未知或动态的关系结构。本文介绍了通过模态逻辑神经网络(MLNNs)实现的可微模态逻辑(DML),使系统能够仅从行为数据中学习信任网络、因果链和监管边界。文章提出了一个统一的神经符号调试框架,涵盖四个模态:认识论(信任谁)、时间(事件何时导致故障)、道义(允许哪些动作)和信念(如何解释智能体的信心)。每个模态均在具体的多智能体场景中进行了演示,包括从外交游戏中发现欺骗性联盟到检测LLM幻觉,并展示了如何将逻辑矛盾转化为可学习的优化目标。关键贡献包括:(1)可解释的学习结构,其中信任和因果关系是显式参数而非不透明嵌入;(2)通过可微分公理注入知识以指导稀疏数据下的学习;(3)组合多模态推理,结合认识论、时序和道义约束;以及(4)适用于监控、主动控制和通信的多智能体系统的实际部署模式。所有代码均以可执行的Jupyter Notebook形式提供。
多智能体系统 模态逻辑 神经符号系统 可微推理 信任网络
论文聚焦于基于模态逻辑的可微推理框架,用于多智能体系统的诊断与通信,直接涉及推理机制的设计与实现。
Code
Tiny Recursive Reasoning with Mamba-2 Attention Hybrid
Wenlong Wang, Fergal Reid
Intercom
9/10 2026-02-12 cs.AI PDF
近期关于递归推理模型(如TRM)的研究表明,小型网络(7M参数)可以通过潜在递归机制在抽象推理任务中取得良好性能。本文探讨了将Mamba-2状态空间递归引入递归框架是否能保持推理能力。通过将TRM中的Transformer模块替换为Mamba-2混合操作符,并保持参数数量相近(6.83M vs 6.86M),实验结果表明,在ARC-AGI-1数据集上,混合模型在pass@2指标上提升了2.0%,且在更高K值下表现更优,同时保持了pass@1的一致性。这表明混合模型提高了候选解覆盖范围,生成正确解的能力更强。研究验证了Mamba-2混合操作符在递归框架中保留推理能力,确立了基于SSM的操作符作为递归操作符设计空间中的可行选择。
递归推理 Mamba-2 参数效率 抽象推理 SSM
论文聚焦于递归推理模型的改进,探讨Mamba-2在递归推理中的有效性,直接涉及推理能力提升。
LawThinker: A Deep Research Legal Agent in Dynamic Environments
Xinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou
Renmin University of China
9/10 2026-02-12 cs.AI PDF
法律推理不仅需要正确的结果,还需要符合程序规范的推理过程。然而现有方法缺乏对中间推理步骤的验证机制,导致错误(如不适用的法规引用)在推理链中未被检测到。为此,本文提出LawThinker,一种采用探索-验证-记忆策略的自主法律研究代理,适用于动态司法环境。其核心思想是在每次知识探索后强制执行验证操作。DeepVerifier模块从知识准确性、事实与法律的相关性以及程序合规性三个维度检查每个检索结果,并通过记忆模块实现长周期任务中的跨轮次知识复用。在动态基准J1-EVAL上的实验表明,LawThinker相比直接推理方法提升了24%,比基于工作流的方法提升了11%,尤其在面向过程的指标上表现突出。在三个静态基准上的评估进一步验证了其泛化能力。
legal reasoning verification agent system knowledge retrieval
论文聚焦于法律推理过程的验证与改进,核心机制围绕推理步骤的准确性与合规性展开。
Code
When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
Shani Goren, Ido Galil, Ran El-Yaniv
Technion NVIDIA
9/10 2026-02-12 cs.AI PDF
尽管大语言模型(LLMs)被广泛应用,但其在事实性错误方面仍存在问题,影响用户信任和高风险场景的采用。一种缓解方法是为模型配备不确定性估计机制,在置信度低时进行回避。然而,这种二元“全有或全无”的方法在长文本生成中过于严格,常导致有价值信息的丢失。本文提出选择性抽象(Selective Abstraction, SA)框架,使LLMs能够在不确定内容上通过选择性减少细节来换取可靠性。首先,我们从选择性风险和覆盖率的角度形式化SA;然后提出原子级选择性抽象,将响应分解为表达单一事实的原子声明,并用更高置信度、更少细节的抽象替换不确定的原子。为了评估该框架,我们开发了一个端到端的开放生成流水线,将风险定义为事实正确性,并使用信息论指标衡量覆盖率。在FactScore和LongFact-Objects基准上的六种开源模型实验表明,原子级SA显著优于现有基线,将风险-覆盖率曲线下的面积(AURC)提升了高达27.73%,证明减少具体性可以提高准确性和可靠性,同时保留大部分原始含义。
不确定性估计 事实准确性 长文本生成 选择性抽象 推理可靠性
论文聚焦于LLM在长文本生成中的推理可靠性,通过选择性抽象提升事实准确性,属于推理能力的核心研究。
Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models
Lu Tao, Jinxuan Luo, Yousuke Watanabe, Zhengshu Zhou, Yuhuan Lu et al.
拉夫堡大学,英国
9/10 2026-02-12 cs.AI PDF
动态地图(DM)是中国和日本车路云(VRC)协同自动驾驶的基础信息基础设施。通过提供全面的交通场景表示,DM克服了独立自动驾驶系统(ADS)的物理遮挡等限制。尽管增强DM的ADS已在日本实际应用中部署成功,但现有DM系统仍缺乏支持自然语言(NLS)的人机交互接口,这将显著提升人与DM的交互能力。为弥补这一不足,本文引入了VRCsim,一个用于生成流式VRC协同感知数据的仿真框架。基于VRCsim,我们构建了一个名为VRC-QA的数据集,专注于混合交通场景中的空间查询与推理。在此基础上,我们进一步提出了Talk2DM,一个可插拔模块,扩展了VRC-DM系统的自然语言查询与常识推理能力。Talk2DM基于一种新颖的提示链(CoP)机制,逐步整合用户定义规则与大语言模型(LLMs)的常识知识。在VRC-QA上的实验表明,Talk2DM可以在不同LLM之间无缝切换并保持高精度的自然语言查询,展示了其强大的泛化能力。虽然更大的模型通常具有更高的准确性,但效率下降明显。我们的结果表明,由Qwen3:8B、Gemma3:27B和GPT-oss模型驱动的Talk2DM实现了超过93%的自然语言查询准确率,平均响应时间仅为2-5秒,显示出良好的实用潜力。
自然语言处理 常识推理 动态地图 车路云协同 大语言模型
论文核心围绕常识推理与自然语言查询,提出基于大模型的推理机制。
Code
Prototype Transformer: Towards Language Model Architectures Interpretable by Design
Yordan Yordanov, Matteo Forasassi, Bayar Menzat, Ruizhi Wang, Chang Qi et al.
University of Oxford
9/10 2026-02-12 cs.AI PDF
尽管最先进的语言模型在某些领域超越了绝大多数人类,但其推理过程仍然 largely 不透明,这削弱了对其输出的信任。此外,虽然自回归语言模型可以输出显式的推理,但其真实的推理过程是不透明的,这可能带来欺骗和幻觉等风险。本文提出了一种基于原型(参数向量)的自回归语言模型架构——原型Transformer(ProtoT),作为对标准自注意力机制Transformer的替代方案。ProtoT通过输入序列与原型之间的双向通信工作,并展示了原型在训练过程中自动捕捉可命名概念(如“女人”)的能力。这些原型为解释模型的推理过程提供了可能性,并允许有针对性地修改其行为。此外,原型的设计创建了聚合不同时间尺度上下文信息的通信通道,有助于提高可解释性。在计算可扩展性方面,ProtoT的规模随序列长度线性增长,而当前最先进的自注意力Transformer则呈二次增长。与基线相比,ProtoT在模型和数据规模上表现良好,在文本生成和下游任务(GLUE)中也表现出色。ProtoT在输入扰动下的鲁棒性与部分基线相当或更好,但其独特之处在于提供了展示鲁棒性和敏感性如何产生的可解释路径。ProtoT的表现接近最先进的架构,为创建性能优异且可解释的自回归语言模型铺平了道路。
可解释性 原型网络 自回归模型 推理机制
论文聚焦于提升语言模型的推理可解释性,直接关联到推理能力的研究。
Detecting RLVR Training Data via Structural Convergence of Reasoning
Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang et al.
新疆大学计算机科学与技术学院 新疆大学人工智能研究院
9/10 2026-02-12 cs.AI PDF
可验证奖励强化学习(RLVR)是训练现代推理模型的核心方法,但其未公开的训练数据引发了基准污染的担忧。与基于词元概率优化的预训练方法不同,RLVR通过自生成推理轨迹的奖励反馈对模型进行微调,使得传统的基于似然的检测方法效果不佳。本文发现RLVR会引发一种独特的行为特征:在RLVR训练过程中遇到的提示会导致更僵化和相似的生成结果,而未见过的提示则保留更高的多样性。我们提出了一种简单的黑盒检测器Min-$k$NN Distance,通过为给定提示采样多个完成结果并计算$k$个最小最近邻编辑距离的平均值来量化这种坍缩现象。该方法无需访问参考模型或词元概率。实验表明,Min-$k$NN Distance能够可靠地区分RL训练中见过和未见过的示例,并优于现有的成员推理和RL污染检测基线。
RLVR 推理模型 数据检测 黑盒检测 结构收敛
论文聚焦于RLVR训练数据检测,与推理模型的行为特征密切相关,属于推理能力研究的核心内容。
Code
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.
浙江大学-威斯莱大学联合实验室 威斯莱大学先进科技研究所
9/10 2026-02-12 cs.CL PDF
实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为解决这一问题,我们提出了长度激励探索(Length-Incentivized Exploration)方法。该方法通过结合基于长度的奖励与冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3、Llama)上的全面实验表明,该方法有效激励了上下文探索。结果表明,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中提升了2.7%。
In-Context Learning Reinforcement Learning Reasoning Hypothesis State Coverage
论文聚焦于提升LLM的推理能力,通过鼓励更长的推理轨迹来增强上下文探索,直接关联到推理机制的改进。
Code
Right for the Wrong Reasons: Epistemic Regret Minimization for Causal Rung Collapse in LLMs
Edward Y. Chang
Stanford University
9/10 2026-02-12 cs.AI PDF
当前机器学习系统可能通过捷径实现高准确率,但这些系统在分布偏移下表现不佳。本文揭示了这种问题的因果根源:自回归训练无法区分相关性P(Y|X)与干预P(Y|do(X)),导致因果层级崩溃。当基于结果的学习强化了错误因果模型下的正确答案时,代理会陷入错误推理。为此,本文提出认知遗憾最小化(ERM)目标函数,独立于任务成功惩罚因果推理错误,并构建三层架构进行知识表示。实验表明,即使在增强推理能力的模型中,因果层级崩溃仍存在,而ERM反馈可有效纠正部分错误。
因果推理 认知修正 分布偏移 LLM缺陷分析
论文聚焦于LLM的因果推理缺陷及改进方法,直接涉及推理能力中的因果建模与错误修正机制。
PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning
Ruixiang Feng, Yuntao Wen, Silin Zhou, Ke Shi, Yifan Wang et al.
清华大学电子工程系 Nanbeige Lab, BOSS Zhijin
9/10 2026-02-12 cs.CL PDF
语言推理模型(LRMs)通过扩展测试时计算量实现了强大的性能,但常因过度思考而产生冗长的推理轨迹,增加延迟和内存使用。现有LRMs通常采用统一长度惩罚来强制简洁性,这在序列层面过度压缩了关键的早期推理步骤,并在组层面无差别地惩罚所有查询。为解决这些问题,本文提出了一种名为PACE的双层级框架,在分层监督下实现前缀保护和难度感知压缩。在序列层面,前缀保护优化采用衰减混合展开策略,以保持有效的推理路径并促进简洁性;在组层面,难度感知惩罚根据查询复杂度动态调整长度约束,在保证对较难问题探索的同时减少简单问题的冗余。在DeepSeek-R1-Distill-Qwen(1.5B/7B)上的大量实验表明,PACE显著减少了token使用量(高达55.7%),同时在数学基准测试中提升了准确率(高达4.1%),并在代码、科学和通用领域表现出良好的泛化能力。
推理优化 语言模型压缩 深度学习 高效推理
论文聚焦于提升语言推理模型的推理效率与准确性,直接涉及推理能力优化机制。
Code
Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation
Shuo Lu, Jianjie Cheng, Yinuo Xu, Yongcan Yu, Lijun Sheng et al.
NLPR & MAIS, CASIA School of AI, UCAS Meituan Inc.
9/10 2026-02-12 cs.AI PDF
多模态大语言模型(MLLMs)在感知导向任务上表现出色,但其在数学空间推理方面的能力尚不明确。人类在教科书式空间推理问题上的准确率超过95%,而主流MLLMs的准确率甚至低于60%。为探究这一差距,本文提出了MathSpatial框架,包含MathSpatial-Bench基准测试集、MathSpatial-Corpus训练数据集以及MathSpatial-SRT推理模型。实验表明,在MathSpatial上微调Qwen2.5-VL-7B可显著提升推理准确性并减少计算量。该框架首次将感知与推理分离,为评估和理解MLLMs的数学空间推理能力提供了大规模资源。
数学推理 空间推理 多模态模型 基准测试 推理框架
论文聚焦于多模态大语言模型在数学空间推理能力上的评估与改进,属于推理能力的核心研究。
PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering
Xiangfeng Wang, Hangyu Guo, Yanlin Lai, Mitt Huang, Liang Zhao et al.
中国科学技术大学 StepFun
9/10 2026-02-12 cs.CL PDF
尽管基于模型的验证器对于扩展具有可验证奖励的强化学习(RLVR)至关重要,但当前以结果为中心的验证范式主要关注最终结果与真实值之间的一致性,常常忽视推导过程中的潜在错误。这导致了从错误推导中得出正确答案时仍被赋予正奖励。为弥补这一差距,我们引入了PRIME,一个用于评估数学和工程领域中过程-结果对齐验证的基准。PRIME通过基于一致性的过滤流程,从大量大学水平的STEM问题中精选出2530个高难度样本。通过广泛评估,我们发现当前验证器经常无法检测到推导缺陷。此外,我们提出了一种基于过程感知的RLVR训练范式,利用PRIME筛选出的验证器进行训练。该方法显著优于仅基于结果的验证基线,在Qwen3-14B-Base模型上分别实现了8.29%、9.12%和7.31%的绝对性能提升。最后,我们展示了验证器在PRIME上的准确性与RLVR训练效果之间的强线性相关性(R² > 0.92),验证了PRIME作为验证器选择可靠预测工具的有效性。
verifiable reasoning process-outcome alignment RLVR training mathematical engineering benchmark
论文聚焦于数学与工程中的可验证推理过程,强调推理过程与结果的一致性,直接关联到推理能力的评估与改进。
Code
SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent
Wenlin Zhong, Jinluan Yang, Yiquan Wu, Yi Liu, Jianhang Yao et al.
浙江大学 Hangzhou, China 长青科技有限公司 Chongqing, China
9/10 2026-02-12 cs.CL PDF
强化学习(RL)已使大型语言模型(LLMs)能够自主完成复杂问答任务的搜索。然而,在多轮搜索场景中,搜索结果常存在高冗余和低信噪比的问题,导致代理陷入“隧道视野”,即早期噪声检索的强制解释引发不可逆的错误累积。为解决这些问题,本文提出SIGHT框架,通过自证支持(SES)和信息增益驱动的多样化分支增强基于搜索的推理能力。SIGHT通过SES提炼高保真证据,并计算信息增益分数以识别关键状态,从而指导动态提示干预(如去重、反思或自适应分支),生成新的分支。最终,通过组相对策略优化将SES与正确性奖励结合,SIGHT无需外部验证器即可内化稳健的探索策略。实验表明,SIGHT在单跳和多跳问答基准测试中显著优于现有方法,尤其在复杂推理场景中使用更少的搜索步骤。
强化学习 搜索代理 推理能力 信息增益 自证支持
论文聚焦于增强基于搜索的推理能力,提出SIGHT框架解决多轮搜索中的冗余和噪声问题。
CausalAgent: A Conversational Multi-Agent System for End-to-End Causal Inference
Jiawei Zhu, Wei Chen, Ruichu Cai
广东工业大学
9/10 2026-02-12 cs.AI PDF
因果推断在医疗、经济和社会科学等领域具有重要价值。然而,传统因果分析工作流存在显著技术障碍,要求研究人员同时具备统计学和计算机科学背景,并手动选择算法、处理数据质量问题及解释复杂结果。为解决这些问题,本文提出CausalAgent,一个用于端到端因果推断的对话式多智能体系统。该系统创新性地整合了多智能体系统(MAS)、检索增强生成(RAG)和模型上下文协议(MCP),通过自然语言交互实现从数据清洗、因果结构学习到偏差校正和报告生成的自动化。用户只需上传数据集并以自然语言提问,即可获得严谨且交互式的分析报告。作为新型以用户为中心的人机协作范式,CausalAgent显式建模分析流程,并通过交互式可视化显著降低因果分析的入门门槛,同时确保过程的严谨性和可解释性。
因果推断 多智能体系统 自然语言交互 自动化分析 人机协作
论文聚焦于因果推理的自动化流程,涉及复杂逻辑与分析,属于推理能力的核心研究。
Code
Human-Inspired Continuous Learning of Internal Reasoning Processes: Learning How to Think for Adaptive AI Systems
Hong Su
清华大学计算机科学与技术系,北京
9/10 2026-02-12 cs.AI PDF
学习内部推理过程对于开发能够在动态现实环境中持续适应的AI系统至关重要。然而,现有方法大多强调任务特定输出或静态知识表示的学习,忽视了内部推理结构、行动调度策略和学习机制本身的持续优化。本文提出了一种受人类启发的连续学习框架,通过并行学习增强的顺序推理模型,统一了推理、行动、反思和验证。该框架将内部思维过程作为主要学习对象,系统记录内部推理轨迹和环境交互作为结构化学习材料,使系统不仅优化任务级内容,还优化推理活动的组织、调度和演化。该设计实现了处理与学习同步进行,使认知结构在执行过程中得到提升。此外,框架支持预定义逻辑的可控替换,并引入了联合适应任务级参数和学习策略的分层学习机制。实验结果表明,在温度传感器异常检测任务中,结合内部过程学习可使平均运行时间减少23.9%。
持续学习 推理机制 自适应AI 内部过程学习 认知架构
论文核心聚焦于内部推理过程的持续学习,直接涉及推理机制的优化与进化。
Multimodal Fact-Level Attribution for Verifiable Reasoning
David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee et al.
美国南加州大学计算机科学系
9/10 2026-02-12 cs.CL PDF
多模态大语言模型(MLLMs)越来越多地用于需要多步骤推理和长文本生成的实际任务,其中可靠性要求模型输出基于异构输入源并验证单个事实声明。然而,现有的多模态基准和评估方法主要关注简化场景或有限模态,无法评估复杂多模态推理中的归因能力。本文引入MuRGAt(基于多模态推理的归因基准),用于评估需要超越直接观察的多模态事实级归因。给定涵盖视频、音频等多模态输入,MuRGAt要求模型生成带有明确推理和精确引用的答案,每个引用需指定模态和时间片段。为实现可靠评估,我们引入了一个与人类判断高度相关的自动评估框架。实验表明,即使强大的MLLMs在推理正确的情况下也常出现虚假引用。此外,研究发现推理深度增加或强制结构化归因往往会降低准确性,揭示了内部推理与可验证归因之间的显著差距。
multimodal reasoning fact attribution verifiable reasoning model evaluation
论文聚焦于多模态模型中的事实级归因与可验证推理,直接涉及LLM的推理能力与逻辑可靠性。
Code
Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao et al.
阿里巴巴集团有限公司 EPIC实验室
9/10 2026-02-12 cs.AI PDF
可验证奖励的强化学习(RLVR)显著提升了多模态大语言模型(MLLMs)的推理能力,但视觉证据在推理过程中的整合机制仍不明确。本文从跨模态注意力连接的角度探索多模态RLVR,发现仅有约15%的token表现出强烈的视觉-文本耦合。这些高连接性token作为锚点,将推理过程与图像关联,而大多数token则遵循语言模式。在RLVR训练过程中,信用分配自然集中在这些锚点上,随着时间推移增强了其视觉基础。基于这一发现,我们提出锚点token强化学习(AT-RL),一种轻量级框架,通过注意力拓扑的图聚类选择性地增强高连接性token。在多个规模模型(3B-32B)上的评估表明,AT-RL仅引入1.2%的开销,却使32B模型在MathVista任务中超越了72B-Instruct基线(80.2),并在STEM、视频和通用任务中均取得稳定提升。相反,仅训练低连接性token会导致严重退化,证实有效的多模态强化学习依赖于对视觉锚点的精确信用分配。本研究揭示推理质量由跨模态锚定的准确性决定,而非token数量。
强化学习 多模态模型 跨模态注意力 推理优化 视觉-文本耦合
论文聚焦于多模态大语言模型的推理能力提升,通过强化学习与视觉证据整合机制进行深入研究。
LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation
Ahmadreza Jeddi, Marco Ciccone, Babak Taati
多伦多大学 Vector Institute 多伦多大学健康网络
9/10 2026-02-11 cs.CL PDF
循环Transformer已成为语言领域推理任务中高效且强大的模型类别。近期研究表明,这些模型在算法和推理任务中表现出色,表明循环架构具有对潜在推理的归纳偏置。然而,先前方法在训练和推理过程中固定了循环迭代次数,未解决模型是否能根据计算预算灵活调整计算深度的问题。本文提出LoopFormer,一种基于可变长度轨迹训练的循环Transformer,支持预算条件下的推理。其核心贡献是一种快捷一致性训练方案,对齐不同长度的轨迹,确保较短循环生成信息丰富的表示,而较长循环则继续优化这些表示。LoopFormer根据当前时间和步长对每个循环进行条件化,使不同长度轨迹的表示能够一致演化,而非漂移或停滞。实验证明,即使在严格的计算约束下,LoopFormer在语言建模和推理基准测试中仍表现出稳健性能,并能随着预算增加优雅扩展。这些结果表明,循环Transformer本质上适合自适应语言建模,为可控且预算感知的大语言模型开辟了新路径。
循环Transformer 潜在推理 预算感知建模 语言建模 自适应计算
论文聚焦于Looped Transformers在推理任务中的表现及适应性,直接关联推理能力提升。
Code
TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning
Sina Tayebati, Divake Kumar, Nastaran Darabi, Davide Ettori, Ranganath Krishnan et al.
University of Illinois at Chicago AI Labs at Capital One
9/10 2026-02-11 cs.AI PDF
在现实世界中,AI智能体与人类进行多轮工具交互时,估计其不确定性具有挑战性,因为失败通常由稀疏的关键事件(如循环、不连贯的工具使用或用户-智能体协调失误)触发,而局部生成结果可能显得自信。现有不确定性代理主要关注单次文本生成,忽略了轨迹级别的崩溃信号。本文提出TRACER,一种面向双控工具-智能体-用户交互的轨迹级不确定性度量方法。TRACER结合内容感知的惊讶值、情境感知信号、语义和词汇重复以及工具支持的连贯性缺口,并通过尾部聚焦的风险函数与MAX复合步骤风险进行聚合,以揭示决定性异常。我们在$τ^2$-bench上对TRACER进行了评估,预测任务失败和选择性任务执行。结果表明,TRACER在AUROC和AUARC指标上分别比基线提升了37.1%和55%,实现了更早且更准确地检测复杂对话式工具使用场景中的不确定性。
不确定性估计 轨迹分析 工具-智能体交互 推理能力评估
论文聚焦于Agent在多轮工具使用中的推理不确定性,提出轨迹级风险度量方法,直接关联到推理能力的评估与改进。
Code
Finding the Cracks: Improving LLMs Reasoning with Paraphrastic Probing and Consistency Verification
Weili Shi, Dongliang Guo, Lehan Yang, Tianlong Wang, Hanzhang Yuan et al.
弗吉尼亚大学数据科学学院
9/10 2026-02-11 cs.CL PDF
大型语言模型在多种推理任务中表现出色,但在更复杂的任务中,其问题解决能力常因幻觉和中间步骤中的错误累积而下降。近期研究引入了关键token的概念,即对后续推理步骤有显著影响的token。尽管已有研究表明替换关键token可以优化推理路径,但可靠地识别和利用这些token仍具挑战性。为此,本文提出了释义探测与一致性验证(PPCV)框架。PPCV分为两个阶段:第一阶段通过原始问题生成初始推理路径,并将其与问题的释义版本连接,基于预测top-1 token与预期token之间的不匹配来识别关键token;第二阶段则用候选替代token替换关键token,并为原始和释义问题生成新的推理路径,最终答案由这些并行推理过程的输出一致性决定。实验表明,PPCV显著提升了主流LLMs在多个基准测试中的推理性能。
reasoning hallucination token identification consistency verification
论文聚焦于提升LLM的推理能力,提出PPCV框架解决中间步骤错误和幻觉问题。
CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi
Sentient Labs University of California, San Diego
9/10 2026-02-11 cs.CR PDF
现代分析师代理必须对包含大量检索文档、工具输出和时间敏感数据的复杂高token输入进行推理。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为高数据密度代表,引入CryptoAnalystBench基准,包含198个生产环境中的加密货币与DeFi查询,并构建了一个配备相关工具的代理框架,用于生成多个前沿LLM的响应。通过人类标注,开发了一种包含七类高级错误类型的分类体系,并改进了评估标准,以更准确捕捉这些错误。研究表明,即使在最先进的系统中,这些失败仍存在,并可能影响高风险决策。本文发布CryptoAnalystBench及相关评估流程、评分标准和错误分类体系,并提出缓解策略与开放挑战。
LLM推理 多工具集成 错误分类 加密货币分析 基准测试
论文聚焦于LLM在处理复杂、多工具输出时的推理失败模式,属于推理能力研究的核心内容。
Code
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
NVIDIA
9/10 2026-02-11 cs.CL PDF
链式推理数据的监督微调(SFT)是推理语言模型的重要后训练步骤。通常认为更多独特的训练样本能带来更好的泛化效果。然而,本文发现重复训练在固定更新预算下表现更优:在较小数据集上进行更多轮次训练,比在更大数据集上单轮训练效果更好。实验表明,在AIME'24/25和GPQA基准测试中,Olmo3-7B模型在400个样本上训练128轮,比在51200个样本上训练1轮高出12-26个百分点,且没有额外的灾难性遗忘。研究发现,训练时的标记准确率可以可靠地指示重复训练是否达到饱和;当完全记忆时,额外轮次带来的改进趋于稳定。这些发现为推理SFT提供了一种实用方法,即以标记准确率为停止标准来替代昂贵的数据扩展。本文将重复训练的优势视为一个新问题,提出当完全记忆与泛化能力提升一致时,有助于理解大语言模型的训练动态。
监督微调 链式推理 重复训练 泛化能力 标记准确率
论文聚焦于链式推理数据的监督微调,探讨如何通过重复训练提升推理模型性能,直接关联推理能力的优化。
Code
GENIUS: Generative Fluid Intelligence Evaluation Suite
Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen et al.
Peking University
9/10 2026-02-11 cs.LG PDF
统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估晶体智力,即依赖于回忆积累知识和学习模式的能力。这种关注忽略了生成性流体智能(GFI),即在即时情境中归纳模式、通过约束进行推理并适应新场景的能力。为严格评估这一能力,我们引入了GENIUS(生成性流体智能评估套件)。我们将GFI形式化为三个基本要素的综合:归纳隐式模式(如推断个性化视觉偏好)、执行临时约束(如可视化抽象隐喻)以及适应上下文知识(如模拟反直觉物理)。这些要素共同挑战模型解决完全基于即时情境的问题。对12个代表性模型的系统评估揭示了这些任务中的显著性能缺陷。关键的是,我们的诊断分析区分了这些失败模式,表明问题源于有限的情境理解而非内在生成能力不足。为弥补这一差距,我们提出了一种无需训练的注意力干预策略。最终,GENIUS为GFI建立了严格的评估标准,引导该领域从知识利用转向动态、通用的推理。
生成性流体智能 多模态模型评估 动态推理 上下文适应
论文聚焦于评估模型的生成性流体智能,涉及模式归纳、约束执行和上下文适应,属于推理能力的核心研究。
Code
MultiCube-RAG for Multi-hop Question Answering
Jimeng Shi, Wei Hu, Runchu Tian, Bowen Jin, Wonbin Kweon et al.
University of Illinois Urbana-Champaign
9/10 2026-02-11 cs.CL PDF
多跳问答(QA)需要跨多个相互关联的主题、属性和关系进行多步骤推理和检索。现有的检索增强生成(RAG)方法难以准确捕捉这些结构化语义,导致性能不佳。基于图的RAG方法虽然将信息结构化为图,但生成的图通常存在噪声且计算成本高。此外,大多数方法依赖单步检索,忽略了多跳推理过程的需求。近期基于训练的方法尝试激励大语言模型(LLMs)进行迭代推理和检索,但其训练过程易出现不稳定收敛和高计算开销。为解决这些问题,我们设计了一个基于本体的立方体结构,具有多个正交维度,用于建模结构化主题、属性和关系。基于该立方体结构,我们提出了MultiCube-RAG,一种无需训练的方法,包含多个立方体以实现多步骤推理和检索。每个立方体专门用于建模某一类主题,使MultiCube-RAG能够灵活选择最合适的立方体以精确获取相关知识。为增强基于查询的推理和检索,我们的方法沿立方体维度将复杂的多跳查询分解为一系列简单的子查询,并依次解决它们。在四个多跳QA数据集上的实验表明,MultiCube-RAG相比多种基线方法平均提升了8.9%的响应准确性。值得注意的是,我们的方法还表现出更高的效率和内在可解释性。
多跳问答 检索增强生成 结构化语义建模 多步推理
论文聚焦于多跳问答中的推理与检索机制,提出MultiCube-RAG以提升结构化语义建模和多步推理能力。
Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Furong Huang, Dinesh Manocha et al.
马里兰大学 印度理工学院(IIT) 中央佛罗里达大学
9/10 2026-02-11 cs.CL PDF
基于强化学习的后训练方法(如GRPO)可以提升多模态大规模推理模型(MLRMs)的推理能力,但近期研究表明这可能同时降低安全对齐性并增加越狱成功率。本文提出SafeThink,一种轻量级的推理时防御机制,将安全恢复视为满足条件的约束而非最大化目标。SafeThink通过安全奖励模型监控推理过程,并在安全阈值被违反时注入优化后的短纠正前缀(如“Wait, think safely”)。实验表明,在六个开源MLRMs和四个越狱基准测试中,SafeThink将攻击成功率降低了30-60%,同时保持了推理性能。关键发现是,安全恢复通常只需要干预前1-3步推理步骤即可实现。
安全对齐 推理模型 越狱防御 强化学习 推理修正
论文聚焦于推理模型的安全恢复,直接涉及推理过程中的安全约束与修正机制。
Code
Conversational Behavior Modeling Foundation Model With Multi-Level Perception
Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy et al.
University of California, Berkeley, CA, USA South China University of Technology, Guangzhou, Guangdong, China
9/10 2026-02-11 cs.CL PDF
人类对话通过隐式的思维链组织,表现为定时的语言行为。捕捉这一感知路径是构建自然全双工交互系统的关键。本文提出一种框架,将该过程建模为多级感知,并通过思维图(GoT)进行对话行为推理。该方法采用分层标注方案形式化意图到动作的路径,预测高层沟通意图和低层语言行为以学习其因果和时间依赖关系。为了训练该系统,我们开发了一个高质量语料库,包含可控且事件丰富的对话数据及人工标注标签。GoT框架将流式预测结构化为一个动态演化图,使Transformer能够预测下一个语言行为、生成简洁的决策依据并动态优化推理。在合成和真实全双工对话上的实验表明,该框架实现了稳健的行为检测,生成可解释的推理链,并为全双工语音对话系统的对话推理基准测试奠定了基础。
对话建模 思维图 因果推理 全双工交互 语言行为预测
论文核心研究基于多级感知的对话行为建模与推理机制,涉及因果和时序依赖关系。
Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics
Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang et al.
ByteDance National University of Singapore University of Science and Technology of China
9/10 2026-02-11 cs.AI PDF
尽管思维链(CoT)在大语言模型(LLM)推理中起着关键作用,但直接对其进行奖励具有挑战性:训练奖励模型需要大量的人工标注工作,而静态奖励模型难以应对不断变化的CoT分布和奖励黑客问题。为了解决这些问题,本文提出了一种无需人工标注且能逐步进化的自主CoT奖励方法。受近期自进化训练方法的启发,我们提出了RLCER(基于自进化评分标准的强化学习),该方法通过自提出和自进化的评分标准增强以结果为中心的RLVR。实验表明,即使没有结果奖励,这些自提出和自进化的评分标准也能提供可靠的CoT监督信号,使RLCER优于以结果为中心的RLVR。此外,当用作提示中的提示时,这些自提出的评分标准进一步提升了推理时的表现。
chain-of-thought self-evolving reward model reinforcement learning LLM reasoning
论文聚焦于增强LLM的推理能力,通过自进化评分标准优化思维链推理。
Code
Beyond Confidence: The Rhythms of Reasoning in Generative Models
Deyuan Liu, Zecheng Wang, Zhanyue Qin, Zhiying Tu, Dianhui Chu et al.
Harbin Institute of Technology
9/10 2026-02-11 cs.CL PDF
大型语言模型(LLMs)展现出令人印象深刻的性能,但对输入上下文微小变化敏感,影响可靠性。传统指标如准确率和困惑度无法评估局部预测的鲁棒性,因为归一化输出概率可能掩盖LLM内部状态对扰动的抗性。本文引入了一个新的度量指标——Token Constraint Bound($δ_{ ext{TCB}}$),用于量化LLM在主导下一个token预测显著变化前能承受的最大内部状态扰动。该指标本质上与输出嵌入空间几何相关,为模型内部预测承诺的稳定性提供了洞见。实验表明,$δ_{ ext{TCB}}$与有效的提示工程相关,并揭示了在上下文学习和文本生成过程中困惑度未能发现的关键预测不稳定性。$δ_{ ext{TCB}}$提供了一种原理性的补充方法,用于分析并潜在提升LLM预测的上下文稳定性。
LLM 推理稳定性 内部状态扰动 度量指标 上下文学习
论文聚焦于LLM的推理稳定性,提出新指标衡量其对输入扰动的鲁棒性,直接关联推理能力。
VulReaD: Knowledge-Graph-guided Software Vulnerability Reasoning and Detection
Samal Mukhtar, Yinghua Yao, Zhu Sun, Mustafa Mustafa, Yew Soon Ong et al.
英国曼彻斯特大学计算机科学学院 新加坡科技设计大学科学技术与研究学院 阿联酋阿布扎比大学人工智能学院
9/10 2026-02-11 cs.SE PDF
软件漏洞检测(SVD)是现代系统中的关键挑战。尽管大语言模型(LLMs)能够提供自然语言解释,但现有工作多集中在二分类评估上,且解释常缺乏与常见弱点枚举(CWE)类别的语义一致性。本文提出VulReaD,一种基于知识图谱的漏洞推理与检测方法,超越了传统的二分类,实现CWE级别的推理。该方法利用安全知识图谱作为语义骨架,并通过一个强大的教师LLM生成符合CWE的对比推理监督信号,从而在无需人工标注的情况下训练学生模型。学生模型通过奇数比偏好优化(ORPO)进行微调,以促进分类一致的推理并抑制不支持的解释。实验结果表明,在三个真实数据集上,VulReaD相比最先进的基线方法,在二分类F1指标上提升了8-10%,在多分类任务中分别提升了30%的Macro-F1和18%的Micro-F1。结果还显示,LLMs在二分类检测中优于深度学习基线,而知识图谱引导的推理增强了CWE覆盖范围和可解释性。
软件漏洞检测 知识图谱 推理能力 CWE分类 LLM监督学习
论文聚焦于基于知识图谱的漏洞推理与检测,强调CWE级别的语义推理能力,属于推理能力的核心研究。
Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling
Alaa Elsetohy, Sama Hadhoud, Haryo Akbarianto Wibowo, Chenxi Whitehouse, Genta Indra Winata et al.
中国科学院 阿联酋大学 Meta公司 Capital One公司
9/10 2026-02-11 cs.CL PDF
多语言基准测试很少针对文化背景下的前提进行推理测试:翻译数据集保留了以英语为中心的场景,而以文化为中心的数据集通常缺乏对所需推理的控制。我们提出了Macaron,一个以模板为核心的基准测试,能够在不同语言的问题中分解推理类型和文化因素。利用100个与语言无关的模板,涵盖7种推理类型和22种文化方面,本地标注者创建了与情景一致的英文和本地语言的多项选择题,并系统地推导出真假判断题。Macaron包含11,862个实例,覆盖20个国家/文化背景、10种文字和20种语言(包括阿姆哈拉语、约鲁巴语、祖鲁语、吉尔吉斯语等低资源语言以及一些阿拉伯方言)。在对21个多语言LLM的零样本评估中,推理模式模型表现最强,且英语与本地语言性能接近,而开源权重模型在本地语言中性能显著下降,在真假任务中常接近随机水平。文化相关的数学和计数模板始终最难。数据可通过此链接访问:https://huggingface.co/datasets/AlaaAhmed2444/Macaron。
多语言推理 文化感知 基准测试 LLM评估 模板填充
论文聚焦于多语言、多文化背景下的推理能力评估,设计了基于模板的基准测试,直接涉及LLM的推理机制。
Code
MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
Wenjie Li, Yujie Zhang, Haoran Sun, Xingqi He, Hongcheng Gao et al.
中国协和医科大学基础医学院 清华大学
9/10 2026-02-11 cs.CV PDF
长篇临床视频在基于视觉证据的决策中起着核心作用,尤其在手术机器人等应用中日益重要。然而,当前多模态大语言模型通常采用被动采样或弱关联检查的方式处理视频,限制了其对时间定位证据进行迭代定位、验证和解释的能力。为弥补这一不足,本文提出MedScope,一种用于临床视频推理的工具使用模型,能够在长篇流程中进行粗到细的证据搜索。通过将中间推理与目标工具调用及检索观察的验证相结合,MedScope生成更准确且可信的预测,并明确基于时间定位的视觉证据。为解决高保真监督数据的缺乏,我们构建了ClinVideoSuite,一个以证据为中心的细粒度临床视频数据集。随后,我们使用基于定位对齐奖励和证据加权优势的Grounding-Aware Group Relative Policy Optimization(GA-GRPO)优化MedScope,直接强化工具使用。在完整和细粒度视频理解基准测试中,MedScope在领域内和领域外评估中均达到最先进水平。该方法为能够真正‘以视频思考’的医疗AI代理提供了路径。
临床推理 视频理解 工具调用 医学AI 多模态学习
论文聚焦于通过工具调用实现临床视频中的推理,强调基于视频证据的推理过程。
To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks
Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu et al.
美国亚利桑那州立大学
9/10 2026-02-11 cs.AI PDF
心智理论(ToM)评估模型是否能够推断隐藏的心理状态,如信念、欲望和意图,这对自然社交互动至关重要。尽管大型推理模型(LRMs)在数学和编程中的逐步推理方面取得了进展,但其在社会认知技能中的迁移效果仍不明确。本文系统研究了九种先进的大型语言模型(LLMs),比较了推理模型与非推理模型在三个代表性ToM基准上的表现。结果表明,推理模型并不总是优于非推理模型,有时甚至表现更差。细致分析揭示了三个关键发现:首先,慢思考会导致准确率下降;其次,适度且自适应的推理有助于提升性能;第三,模型依赖选项匹配而非真正的推理。本文还设计了两种干预方法以验证并缓解这些问题。研究表明,LRMs在形式推理方面的进步无法完全迁移到ToM任务中,实现稳健的心智理论需要超越现有推理方法的独特能力。
心智理论 推理模型 选项匹配 自适应推理 社会认知
论文聚焦于推理模型在心智理论任务中的表现,探讨其推理机制与局限性,属于推理能力的核心研究。
Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation
Guangjing Yang, ZhangYuan Yu, Ziyuan Qin, Xinyuan Song, Huahui Yi et al.
北京邮电大学 Emory University 清华大学
9/10 2026-02-11 cs.CV PDF
尽管最近在强化微调(RFT)方面的进展表明基于规则的奖励方案可以有效实现大语言模型的后训练,但其在跨模态、以视觉为中心的领域中的扩展仍鲜有研究。这一限制在医学影像领域尤为明显,因为有效性能需要稳健的视觉感知和结构化推理。本文提出VRFT-Aug,一种针对医学领域的视觉强化微调框架。VRFT-Aug引入了一系列训练策略,旨在增强感知和推理能力,包括先验知识注入、感知驱动的策略优化、医学指导的奖励塑造以及行为模仿。通过在多个医学数据集上的广泛实验,我们证明我们的方法在标准监督微调和RFT基线方法上表现更优。此外,我们提供了基于实证的见解和实用训练启发式方法,这些方法可推广到其他医学图像任务中。我们希望本工作为开发可靠且具备推理能力的高风险医学应用模型提供可行的指导和新的灵感。
视觉强化学习 医学影像 推理增强 模型微调
论文重点研究了通过增强感知和推理能力来改进视觉强化微调,直接涉及推理机制的优化。
APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL
Bowen Cao, Weibin Liao, Yushi Sun, Dong Fang, Haitao Li et al.
香港大学 北京大学 香港中文大学 深圳大学
9/10 2026-02-11 cs.DB PDF
基于大语言模型的文本到SQL系统在学术基准上表现出色,但在复杂的实际企业环境中表现不佳。其主要限制在于依赖静态模式表示,难以解决语义歧义并扩展至大型复杂数据库。为此,我们提出了APEX-SQL,一种基于代理的文本到SQL框架,将范式从被动翻译转向主动探索。该框架采用假设验证循环,使模型推理基于真实数据。在模式链接阶段,使用逻辑规划生成假设,双路径剪枝减少搜索空间,并行数据分析验证列角色,最后进行全局综合以确保拓扑连通性。在SQL生成过程中,引入确定性机制检索探索指令,使代理有效探索数据分布、优化假设并生成语义准确的SQL。实验表明,APEX-SQL在BIRD和Spider 2.0-Snow数据集上的执行准确率分别达到70.65%和51.01%,优于现有基线方法,且减少了token消耗。进一步分析表明,代理探索作为性能增强手段,释放了基础模型在企业环境中的潜在推理能力。
Text-to-SQL Agentic Exploration Reasoning Enhancement Schema Linking Data Profiling
论文核心聚焦于通过代理探索提升LLM的推理能力,解决语义模糊和复杂数据库问题。
LLM-Based Scientific Equation Discovery via Physics-Informed Token-Regularized Policy Optimization
Boxiao Wang, Kai Li, Tianyi Liu, Chen Li, Junzhe Wang et al.
中国科学院自动化研究所 北京,中国 航天科技集团第五研究院总体部 中国空气动力研究与发展中心
9/10 2026-02-11 cs.LG PDF
符号回归旨在从观测数据中提炼数学方程。近期方法成功利用大语言模型(LLMs)生成方程假设,借助其丰富的预训练科学先验知识。然而,现有框架主要将LLM视为静态生成器,依赖提示级别的指导来引导探索,无法根据搜索反馈更新模型内部表示,常导致物理不一致或数学冗余的表达式。本文提出PiT-PO(物理信息化标记正则化策略优化),一个统一框架,通过强化学习将LLM进化为自适应生成器。PiT-PO的核心是双重约束机制,严格确保分层物理有效性,同时应用细粒度、标记级别的惩罚以抑制冗余结构。因此,PiT-PO使LLM能够生成既科学一致又结构简洁的方程。实证表明,PiT-PO在标准基准上达到最先进水平,并成功发现具有挑战性的流体力学问题的新湍流模型。我们还证明,PiT-PO使小型模型能够超越封闭源代码的大模型,实现高性能科学发现的民主化。
科学方程发现 强化学习 物理信息化 符号回归 LLM优化
论文聚焦于LLM在科学方程发现中的推理能力提升,通过强化学习优化生成过程。
LHAW: Controllable Underspecification for Long-Horizon Tasks
George Pu, Michael S. Lee, Udari Madhushani Sehwag, David J. Lee, Bryan Zhu et al.
Scale AI
9/10 2026-02-11 cs.CL PDF
长期工作流代理对于真正自主系统的实现至关重要。其可靠执行依赖于在模糊情境下进行推理并寻求澄清的能力。然而,目前缺乏可扩展且与任务无关的框架来系统地整理和衡量模糊性对自定义工作流的影响。本文提出LHAW(长期增强型工作流),一种模块化、数据集无关的合成流程,通过系统地从目标、约束、输入和上下文四个维度移除信息,将任何明确指定的任务转化为可控的模糊变体。与依赖LLM预测模糊性的方法不同,LHAW通过实证代理试验验证变体,并根据终端状态差异将其分类为关键性、发散性或良性。我们发布了285个任务变体,并进行了正式分析,测量当前代理在模糊环境下的检测、推理和解决模糊性能力。LHAW提供了首个针对长期场景中代理澄清行为的成本敏感评估框架,有助于开发可靠的自主系统。
长期任务 模糊性处理 代理推理 任务变体生成
论文聚焦于Agent在长期任务中处理模糊性问题的推理能力,提出系统化评估框架。
Neuro-Symbolic Synergy for Interactive World Modeling
Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi Zhou
澳大利亚国立大学工程学院 澳大利亚国立大学信息技术学院 麻省理工学院计算机科学与人工智能实验室
9/10 2026-02-11 cs.CL PDF
大型语言模型(LLMs)展现出强大的通用推理能力,但在作为世界模型(WMs)使用时,常常会产生幻觉,尤其是在需要严格遵循确定性转换规则的边缘情况下。相比之下,符号世界模型虽然具有逻辑一致性,但缺乏语义表达能力。为弥合这一差距,本文提出了一种名为Neuro-Symbolic Synergy(NeSyS)的框架,该框架将LLMs的概率语义先验与可执行的符号规则相结合,以实现表达能力和鲁棒性的统一。NeSyS通过交替训练两个模型,并利用对方无法充分解释的轨迹进行优化。与基于规则的提示方法不同,符号世界模型直接通过修改LLM的输出概率分布来约束其行为。神经世界模型仅在未被符号规则覆盖的轨迹上进行微调,从而减少了50%的训练数据,同时保持了准确性。在ScienceWorld、Webshop和Plancraft三个不同的交互环境中进行的大量实验表明,NeSyS在世界模型预测准确性和数据效率方面均优于基线方法。
world modeling neuro-symbolic reasoning llm symbolic reasoning
论文聚焦于LLM的推理能力与世界模型的结合,强调逻辑一致性与语义表达的融合。
Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge
Jesse Barkley, Abraham George, Amir Barati Farimani
卡内基梅隆大学工程学院
9/10 2026-02-10 cs.CV PDF
在动态军事环境中部署自主边缘机器人受到领域特定训练数据稀缺和边缘硬件计算能力限制的制约。本文提出了一种分层的零样本框架,将轻量级目标检测与紧凑型视觉-语言模型(VLM)相结合,使用Qwen和Gemma系列模型(4B-12B参数)。Grounding DINO作为高召回率、文本提示的区域提议器,将高置信度检测结果传递给边缘类VLM进行语义验证。我们在 Battlefield 6 的55个高保真合成视频上评估该流程,在三个任务中分别达到最高100%的误报过滤准确率、97.5%的损伤评估准确率以及55%-90%的细粒度车辆分类准确率。我们进一步扩展该流程为一个代理式的Scout-Commander工作流,实现100%正确的资产部署和9.8/10的推理得分(由GPT-4o评分),延迟低于75秒。一种新的“受控输入”方法解耦感知与推理,揭示了不同的故障表型:Gemma3-12B在战术逻辑上表现优异但在视觉感知上失败,而Gemma3-4B即使输入准确也会出现推理崩溃。这些发现验证了分层零样本架构在边缘自主性中的有效性,并提供了一个用于认证VLM在安全关键应用中适用性的诊断框架。
边缘计算 视觉-语言模型 零样本推理 战术决策 自主机器人
论文重点研究了基于VLM的战术推理与语义验证,涉及零样本推理和边缘计算中的逻辑判断。
Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality
Zhimin Hu, Riya Roshan, Sashank Varma
Georgia Tech
9/10 2026-02-10 cs.CL PDF
人类的推理受到资源理性的塑造,即在约束条件下优化性能。最近,推理时扩展成为提升大语言模型(LLM)推理性能的一种强大范式,通过增加测试时计算量来实现。具体而言,指令微调(IT)模型在推理过程中显式生成长推理步骤,而大型推理模型(LRMs)则通过强化学习训练以发现最大化准确率的推理路径。然而,尚不清楚在没有与计算成本相关的显式奖励的情况下,资源理性是否能够从这种扩展中自然产生。本文引入了一个变量归因任务,要求模型根据候选变量、输入-输出试验和预定义逻辑函数推断哪些变量决定了结果。通过调整候选变量数量和试验数量,系统地操控任务复杂度。两种模型均表现出随着复杂度增加,从暴力搜索策略向分析策略的转变。IT模型在XOR和XNOR函数上表现下降,而LRMs保持稳健。这些发现表明,即使没有基于成本的显式奖励,模型也能根据任务复杂度调整推理行为,为资源理性是推理时扩展本身所固有的属性提供了有力证据。
resource rationality reasoning strategies inference-time scaling large language models
论文聚焦于语言模型的推理能力,探讨其在不同任务复杂度下的策略调整与资源理性。
On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models
Polina Tsvilodub, Jan-Felix Klumpp, Amir Mohammadpour, Jennifer Hu, Michael Franke
Department of Linguistics, University of Tübingen Department of Cognitive Science, Johns Hopkins University
9/10 2026-02-10 cs.CL PDF
本文探讨了语言模型(LMs)是否利用共享的计算机制来处理一般性的心智理论(ToM)和语言特定的实用推理,以回答语言模型是否可能具有‘社会世界模型’这一问题。通过行为评估和因果机制实验,结合认知神经科学启发的功能定位方法,分析了LMs在七个心智理论子类别上的表现。严格的假设驱动统计测试结果表明,语言模型可能发展出相互关联的‘社会世界模型’,而非孤立的能力。本研究贡献了新的心智理论定位数据、功能定位技术的方法改进,并提供了关于人工系统中社会认知涌现的实证见解。
心智理论 实用推理 功能整合 语言模型 社会认知
论文聚焦语言模型在心智理论和实用推理中的功能整合,属于推理能力的核心研究。
MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation
Yongyue Zhang, Yaxiong Wu
Singapore
9/10 2026-02-10 cs.IR PDF
理解和处理包含段落、图表和表格等多模态块的长上下文多模态文档具有挑战性,主要由于跨模态异质性和跨页推理需求。为解决这些问题,本文提出了一种以查询为中心的框架MLDocRAG,通过构建多模态块-查询图(MCQG)来组织文档内容,该图基于细粒度查询将不同模态和页面的信息进行关联。该方法实现了选择性检索和结构化证据聚合,从而提升了多模态长上下文问答任务中的准确性和连贯性。实验表明,MLDocRAG在MMLongBench-Doc和LongDocURL数据集上显著提升了检索质量和答案准确性。
多模态理解 长上下文推理 文档检索增强生成 跨模态信息整合
论文聚焦于多模态长文理解中的跨模态与跨页推理问题,提出基于查询的结构化方法提升推理能力。
KORAL: Knowledge Graph Guided LLM Reasoning for SSD Operational Analysis
Mayur Akewar, Sandeep Madireddy, Dongsheng Luo, Janki Bhimani
Florida International University, Miami, FL, USA Argonne National Laboratory, Lemont, IL, USA
9/10 2026-02-10 cs.DC PDF
固态硬盘(SSDs)在数据中心、消费平台和关键任务系统中至关重要。然而,由于数据碎片化且时间不连续,现有方法需要大量数据集和专家输入,但提供的洞察有限。KORAL是一个由知识驱动的推理框架,将大语言模型(LLMs)与结构化的知识图谱(KG)相结合,以生成对SSD运行的见解。该方法从碎片化的遥测数据生成数据知识图谱,并整合已组织的文献知识图谱,从而将非结构化来源转化为可查询的图谱,并将遥测数据转化为结构化知识。两个图谱共同引导LLM提供基于证据、可解释的分析,符合领域术语和约束条件。使用真实生产跟踪的评估表明,KORAL能够实现专家级诊断和建议,并通过有根据的解释提高推理透明度,指导操作决策,减少人工工作量,并提供改进服务质量的可行见解。据我们所知,这是首个结合LLMs和KGs的端到端系统,用于全频谱SSD推理,包括描述性、预测性、规范性和假设性分析。
知识图谱 LLM推理 SSD分析 可解释性AI 存储系统
论文核心围绕LLM与知识图谱结合进行SSD操作分析,强调推理能力与可解释性。
Code
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens
Weihao Liu, Dehai Min, Lu Cheng
美国伊利诺伊大学芝加哥分校计算机科学系
9/10 2026-02-10 cs.CL PDF
尽管显式的思维链(CoT)赋予了大语言模型(LLMs)强大的推理能力,但它要求模型在文本标记中表达每一个中间步骤,从而将模型的思考限制在离散的词汇空间中。最近,连续潜在空间中的推理作为一种有前途的替代方案出现,使推理和计算超越了离散标记的限制,更加稳健和灵活。然而,当前的潜在推理范式常常受到特征坍缩和不稳定的影响,这源于在递归使用隐藏状态作为输入嵌入时的分布不匹配问题,或依赖辅助模型时的对齐问题。为了解决这些问题,我们提出了潜在思维调优(LT-Tuning),一种重新定义潜在思维构建和部署方式的框架。我们的方法不再仅仅依赖于原始的隐藏状态,而是引入了一个上下文-预测-融合机制,联合利用上下文隐藏状态和来自词汇嵌入空间的预测语义指导。结合渐进的三阶段课程学习流程,LT-Tuning还能够动态切换潜在和显式思考模式。实验表明,我们的方法优于现有的潜在推理基线,在有效缓解特征坍塌的同时实现了稳健的推理精度。
Chain-of-Thought 潜在空间推理 隐式思维 课程学习 推理优化
论文聚焦于提升LLM的推理能力,提出新的隐空间推理框架,直接针对推理机制进行改进。
Code
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang et al.
中国科学院大学
9/10 2026-02-10 cs.LG PDF
可验证奖励强化学习(RLVR)已被证明是提升大语言模型(LLMs)推理能力的有效方法。然而,RLVR面临元学习瓶颈:缺乏人类学习循环中固有的错误归因和经验内化机制,从而限制了细粒度信用分配和可重用知识的形成。本文提出一种名为元经验学习(MEL)的新框架,将自蒸馏获得的元经验整合到模型的参数化记忆中。基于标准RLVR,我们引入了一种设计,利用LLM的自我验证能力对正确和错误轨迹进行对比分析,识别推理错误的具体分叉点,并将其总结为可推广的元经验。通过最小化负对数似然,将元经验内化到LLM的参数化记忆中,从而生成一种语言建模奖励信号,连接正确与错误推理轨迹并促进有效知识复用。实验结果表明,MEL在多个基准测试中均取得一致改进,在不同模型规模下Pass@1指标提升了3.92%至4.73%。
强化学习 元经验 推理能力 语言模型优化
论文聚焦于提升LLM的推理能力,通过引入元经验学习机制增强其错误归因与知识复用。
Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing
Mohamed Afane, Kayla Laufer, Wenqi Wei, Ying Mao, Junaid Farooq et al.
Fordham University, New York, New York, USA University of Michigan-Dearborn, Dearborn, Michigan, USA Stevens Institute of Technology, Hoboken, New Jersey, USA
9/10 2026-02-10 cs.CL PDF
语言模型已成为量子计算教育和研究的实用工具,从总结技术论文到解释理论概念以及回答该领域最新进展的问题。尽管现有基准测试了量子代码生成和电路设计,但对量子计算概念的理解尚未系统评估。Quantum-Audit通过2700个问题填补了这一空白,涵盖核心量子计算主题。我们评估了来自领先机构的26个模型。该基准包含1000个专家编写的问题、1000个通过LLM从研究论文中提取并由专家验证的问题,以及额外的700个问题,包括350个开放式问题和350个包含错误前提的问题,以测试模型是否能纠正错误假设。人类参与者的得分在23%至86%之间,专家平均得分为74%。表现最佳的模型超过了专家平均水平,Claude Opus 4.5达到84%的准确率,但顶级模型在专家编写的问题上平均准确率下降了12个百分点。在高级主题上的表现进一步下降,在安全问题上降至73%。此外,模型经常接受并强化问题中嵌入的错误前提,而非识别它们,在这些关键推理任务中的准确率低于66%。
量子计算 推理评估 LLM基准测试 错误前提检测
论文重点评估了LLM在量子计算概念理解上的推理能力,涉及逻辑判断与错误前提识别。
Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin
巴黎萨克雷大学理工学院, 法国 萨里大学, 英国
9/10 2026-02-10 cs.LG PDF
大型语言模型(LLMs)在生成链式推理(Chain-of-Thought, CoT)时往往产生冗余内容,增加了计算成本和延迟,而性能提升有限。本文提出了一种基于强化学习的细粒度组策略优化算法(FGO),通过细分组响应并根据长度和熵分配适当权重,实现有效的CoT压缩。同时,作为Group Relative Policy Optimization(GRPO)的增强变体,FGO成功解决了GRPO的两个主要限制:数据利用效率低和熵崩溃问题。我们在多个推理任务上的实验表明,FGO能够在不降低性能的前提下实现高效的CoT压缩,并有效解决GRPO的关键局限。
Chain-of-Thought Reinforcement Learning Reasoning Compression GRPO
论文聚焦于Chain-of-Thought(CoT)推理的压缩优化,直接关联LLM的推理能力提升。
Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection
Changjiang Jiang, Xinkuan Sha, Fengchang Yu, Jingjing Liu, Jian Liu et al.
武汉大学 AntGroup
9/10 2026-02-10 cs.CV PDF
近期研究表明,在检测过程中引入思维链(Chain-of-Thought, CoT)推理可以增强模型检测合成图像的能力。然而,过长的推理过程会带来显著的资源开销,包括token消耗和延迟,尤其在处理明显伪造的图像时显得冗余。为了解决这一问题,本文提出Fake-HR1,一种大规模混合推理模型,据我们所知,这是首个能够根据生成检测任务的特征自适应判断是否需要进行推理的模型。为此,我们设计了一个两阶段训练框架:首先进行混合微调(Hybrid Fine-Tuning, HFT)以实现冷启动初始化,随后通过混合推理分组策略优化(Hybrid-Reasoning Grouped Policy Optimization, HGRPO)进行在线强化学习,隐式学习何时选择合适的推理模式。实验结果表明,Fake-HR1能够在不同类型的问题中自适应地进行推理,在推理能力和生成检测性能方面均优于现有大语言模型,同时显著提升了响应效率。
合成图像检测 思维链推理 混合推理模型 自适应推理 视觉语言模型
论文核心围绕Chain-of-Thought(CoT)推理机制展开,提出自适应推理模型Fake-HR1。
Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
Wenxuan Xie, Yujia Wang, Xin Tan, Chaochao Lu, Xia Hu et al.
上海人工智能实验室, 上海, 中国 同济大学, 上海, 中国
9/10 2026-02-10 cs.CL PDF
将大量动态知识整合到大型语言模型(LLMs)中仍是一个重大挑战,因为事实数据和推理模式之间存在固有的纠缠。现有的解决方案,从非参数检索增强生成(RAG)到参数化知识编辑,通常受到有限上下文窗口、检索器噪声或灾难性遗忘风险的限制。本文提出DRIFT,一种新颖的双模型架构,旨在显式地将知识提取与推理过程解耦。不同于静态提示压缩,DRIFT使用轻量级知识模型根据查询动态压缩文档片段为隐式事实标记。这些密集表示被投影到推理模型的嵌入空间中,以替换原始冗余文本,同时保持推理准确性。大量实验表明,DRIFT在长上下文任务上显著提升了性能,在可比规模模型中优于强基线。我们的方法为扩展LLMs的有效上下文窗口和推理能力提供了一种可扩展且高效的范式。
长上下文推理 隐式事实标记 双模型架构 知识压缩 高效推理
论文聚焦于推理能力,提出了一种解耦知识提取与推理过程的框架,显著提升长上下文任务性能。
Code
ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
Qingnan Ren, Shiting Huang, Zhen Fang, Zehui Chen, Lin Chen et al.
中国科学院大学 上海AI实验室
9/10 2026-02-10 cs.LG PDF
强化学习已成为开发复杂任务推理模型的核心技术,从数学问题求解到想象推理。这些模型的优化通常依赖于策略梯度方法,其效果取决于优势函数的准确估计。然而,现有方法通常采用静态优势估计,忽视了训练样本随时间变化的动态效用,导致信用分配效率低下,进而引发策略更新次优、收敛速度慢和学习不稳定等问题。为解决这一问题,本文提出ADORA(基于在线回滚适应的优势动态),一种新颖的策略优化框架。ADORA通过在线模型回滚过程中动态调整优势函数权重,将训练数据分类为临时有利或不利样本,从而实现更高效的策略更新。广泛的实验表明,ADORA在不同模型家族和数据规模下均表现出鲁棒性和高效性,显著提升了几何和数学任务中的长推理能力,且无需敏感的超参数调优。
强化学习 策略优化 动态优势估计 推理模型 在线回滚
论文聚焦于强化学习中推理模型的训练,提出动态优势估计方法以提升推理能力。
Discovering High Level Patterns from Simulation Traces
Sean Memery, Kartic Subr
University of Edinburgh, United Kingdom
9/10 2026-02-10 cs.AI PDF
嵌入在基于物理交互环境中的人工智能代理面临诸多挑战,包括推理、规划、总结和问答。当人类用户希望以自然语言指导或与代理交互时,这一问题更加复杂。尽管语言模型(LMs)是默认选择,但它们在涉及物理的任务上表现不佳。LM的物理推理能力是从观察数据中学习的,而非基于模拟。通常的做法是将模拟轨迹作为上下文,但由于模拟轨迹包含大量细粒度数值和语义数据,这种方法扩展性较差。本文提出了一种自然语言引导的方法,从详细的模拟日志中发现粗粒度模式(如'刚体碰撞'、'稳定支撑'等)。具体而言,我们合成在模拟日志上运行的程序,并将其映射到一系列高层激活模式。通过两个物理基准测试,我们表明这种对模拟日志的注释表示更有利于对物理系统的自然语言推理。我们展示了该方法如何使LM根据自然语言指定的目标生成有效的奖励程序,这些程序可用于规划或监督学习的上下文中。
物理推理 自然语言处理 模拟日志分析 模式识别
论文聚焦于通过自然语言引导发现物理模拟中的高层次模式,直接提升LLM的物理推理能力。
ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning
Shuaiyi Nie, Siyu Ding, Wenyuan Zhang, Linhao Yu, Tianmeng Yang et al.
中国科学院大学网络空间安全学院
9/10 2026-02-10 cs.CL PDF
通过强化学习和可验证奖励训练的大规模推理模型在复杂推理任务中表现出色,但往往存在过度思考的问题,生成冗余推理步骤而无性能提升。现有的轨迹级长度惩罚方法难以有效缩短推理长度且会降低准确性,因为它们对所有推理步骤一视同仁,缺乏区分冗余与必要步骤的细粒度信号。同时,过程监督方法通常资源消耗大且存在信用分配不准确的问题。为解决这些问题,本文提出ATTNPO,一种低开销的过程监督强化学习框架,利用模型内在的注意力信号进行步骤级信用分配。首先识别出一组特殊的注意力头,这些注意力头自然关注关键步骤并抑制冗余步骤。通过利用这些注意力头的得分,采用两种子策略减少冗余步骤,同时通过减轻关键步骤的惩罚来保持准确性。实验结果表明,ATTNPO显著减少了推理长度,并在9个基准测试中显著提升了性能。
强化学习 注意力机制 推理优化 过程监督 冗余消除
论文聚焦于提升LLM的推理效率与性能,直接针对推理过程中的冗余问题进行优化。
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations
William Lugoloobi, Thomas Foster, William Bankes, Chris Russell
牛津大学佛兰克林学院 牛津大学计算机科学系
9/10 2026-02-10 cs.CL PDF
在对每个问题进行扩展推理时运行大型语言模型(LLMs)是昂贵的,但确定哪些输入实际上需要额外计算仍具有挑战性。本文研究是否可以从生成前的内部表示中恢复模型自身的成功概率,并探讨这一信号是否能指导更高效的推理过程。我们通过训练线性探针,在生成前的激活状态上预测数学和编程任务中的策略特定成功情况,显著优于表面特征如问题长度和TF-IDF。使用E2H-AMC数据集,该数据集提供了相同问题的人类和模型表现,我们展示了模型编码了一个与人类难度不同的模型特定难度概念,并且这种差异随着扩展推理而增加。利用这些探针,我们证明了跨模型池路由查询可以在减少推理成本高达70%的同时超越最佳模型的表现,表明即使模型的内部表示与人类对难度的直觉不同,也能实现实际效率提升。
推理能力 模型效率 内部表示 任务难度预测
论文聚焦于LLM在推理任务中的内部表示与成功预测,直接关联到推理能力的研究。
Code
LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse
Bakhtawar Ahtisham, Kirk Vanacore, Zhuqian Zhou, Jinsook Lee, Rene F. Kizilcec
科尔盖大学
9/10 2026-02-10 cs.CL PDF
随着大语言模型(LLMs)在大规模教育对话分析中的应用日益广泛,当前流程缺乏可靠的方法来检测模型何时出错。本文研究是否可以通过LLM生成的推理来预测其自身预测的正确性。我们分析了30,300条课堂对话中的教师发言,每条发言均被多个最先进的LLMs标注为教学行为类型并附带推理过程。通过人工验证的真实标签,我们将任务定义为预测模型对特定发言的标注是否正确。使用TF-IDF编码LLM推理,并评估五种监督分类器。随机森林分类器达到F1分数0.83(召回率0.854),成功识别大部分错误预测并优于基线方法。针对特定教学行为构建专门检测器进一步提升了性能,表明错误检测受益于特定结构的语言线索。利用LIWC框架分析四个正确性语言标记:因果、区分、不确定性及洞察力。正确预测表现出基于因果的语言(如because、therefore),而错误推理更可能依赖认识论上的模糊表达(如might、could)和表现性元认知(如think、realize)。句法复杂度无法区分正确与错误推理,较长的推理并不更可靠。这些发现表明,基于推理的错误检测为自动化教育对话分析的质量控制提供了一种实用且可扩展的方法。
LLM推理 错误检测 教育对话分析 语言特征分析 分类器评估
论文聚焦于LLM推理能力的正确性检测,分析推理内容的语言特征与预测准确性之间的关系。
Decomposing Reasoning Efficiency in Large Language Models
Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud
挪威-集成 - 挪威大学
9/10 2026-02-10 cs.CL PDF
训练用于推理的大语言模型在推理令牌使用和准确性之间存在权衡,但标准评估仅报告最终准确性,掩盖了令牌的使用或浪费情况。本文提出了一种可选追踪框架,将令牌效率分解为可解释的因素:在固定令牌预算下的完成度(避免截断)、完成条件下的正确性以及冗长性(令牌使用)。当基准元数据提供每个实例的工作负载代理时,进一步将冗长性分解为两个部分:平均表述开销(每工作单元的令牌数)和一个耦合系数,该系数捕捉开销如何随任务工作量变化。当有推理追踪时,还加入了确定性的追踪质量指标(如基础性、重复性、提示复制),以区分退化的循环推理与冗长但参与的推理,避免人工标注和LLM评判。在CogniLoad上对25个模型进行评估,发现准确性和令牌效率排名存在分歧(Spearman $ρ=0.63$),效率差距通常由条件正确性驱动,而表述开销因任务不同而变化约9倍(与模型规模关系较弱)。该分解揭示了不同的瓶颈特征,表明需要不同的效率干预措施。
推理效率 令牌使用分析 模型评估 推理追踪
论文聚焦于LLM的推理效率分解,直接涉及推理能力的核心机制与评估。
MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering
Sieun Hyeon, Jusang Oh, Sunghwan Steve Cho, Jaeyoung Do
韩国电气工程系 人工智能学院,首尔国立大学
9/10 2026-02-10 cs.CL PDF
近年来,大型语言模型(LLMs)在表格理解任务如表格问答(TableQA)方面取得了显著进展,但在资源受限或隐私敏感环境中仍面临可靠性、可扩展性和效率方面的挑战。本文提出MATA,一种基于多智能体的表格问答框架,利用多个互补的推理路径和由小型语言模型构建的一组工具。MATA通过多样化的推理风格为给定表格和问题生成候选答案,并借助这些工具进行优化或选择最佳答案。此外,它引入了一种算法以减少昂贵的LLM代理调用,从而提高整体效率。MATA在使用小型开源模型时仍能保持强大性能,并能适应各种LLM类型。在两个不同难度基准上使用十种不同的LLM进行的广泛实验表明,MATA在避免过度LLM推理的同时实现了最先进的准确率和高效推理。结果表明,精心协调的多路径推理方法能够实现可扩展且可靠的表格问答。
多智能体系统 表格问答 推理路径 小模型工具 高效推理
论文核心围绕多路径推理机制提升表格问答的可靠性与效率,属于推理能力研究。
Code
Agentic Spatio-Temporal Grounding via Collaborative Reasoning
Heng Zhao, Yew-Soon Ong, Joey Tianyi Zhou
CFAR, IHPC, Agency for Science, Technology and Research(ASTAR), Singapore CCDS, Nanyang Technological University, Singapore
9/10 2026-02-10 cs.CV PDF
时空视频定位(STVG)旨在根据文本查询在视频中检索目标对象或人物的时空区域。现有方法通常在预测的时间范围内逐帧进行空间定位,导致计算冗余、监督需求高且泛化能力有限。弱监督方法虽减少标注成本,但受限于数据集级别的训练范式,性能较差。为解决这些问题,本文提出一种面向开放世界和无训练场景的智能体时空定位框架(ASTG)。该框架利用多模态大语言模型构建两个专门的智能体:空间推理代理(SRA)和时间推理代理(TRA),以自主、自导的方式协作完成目标区域的检索。ASTG采用“提出-评估”范式,解耦时空推理过程,并自动化完成区域提取、验证和时间定位。借助专用视觉记忆和对话上下文,显著提升了检索效率。实验表明,该方法在主流基准测试中优于现有的弱监督和零样本方法,并可与部分全监督方法相媲美。
时空定位 多模态LLM 智能体协作 推理代理 弱监督学习
论文核心围绕空间-时间推理,提出两个专门的推理代理进行自主协作推理。
Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning
Qiao Liang, Yuke Zhu, Chao Ge, Lei Yang, Ying Shen et al.
MYbank, Ant Group, China
9/10 2026-02-10 cs.CL PDF
工具集成推理(TIR)使LLM代理能够通过规划、工具使用和迭代修正来解决任务,但在这种设置下基于结果的强化学习面临稀疏、延迟奖励和弱步骤级信用分配的问题。在长跨度的TIR轨迹中,早期不可恢复的错误可能决定任务成败,因此需要定位第一个不可恢复步骤并利用其进行细粒度信用分配。本文提出错误定位策略优化(ELPO),通过固定展开预算下的二分查找展开树定位第一个不可恢复步骤,通过层次优势归因将树结构转化为稳定的训练信号,并应用错误定位自适应裁剪以增强对关键步骤及其后续部分的校正更新。在数学、科学问答和代码执行等TIR基准测试中,ELPO在可比采样预算下始终优于强代理RL基线,在Pass@K和Major@K扩展、展开排名质量和工具调用效率方面均有额外提升。
tool-integrated reasoning error localization policy optimization credit assignment
论文聚焦于LLM在工具集成推理中的错误定位与策略优化,直接提升其推理能力。
On the Optimal Reasoning Length for RL-Trained Language Models
Daisuke Nohara, Taishi Nakamura, Rio Yokota
日本科学研究所
9/10 2026-02-10 cs.CL PDF
强化学习显著提升了大语言模型的推理能力,但也倾向于延长思维链输出并增加训练和推理阶段的计算成本。尽管已有长度控制方法被提出,但最佳输出长度以平衡效率与性能仍不清楚。在本研究中,我们在两个模型Qwen3-1.7B Base和DeepSeek-R1-Distill-Qwen-1.5B上比较了多种长度控制方法。结果表明,长度惩罚可能会阻碍推理能力的获取,而适当调整的长度控制可以提升具有强先验推理能力模型的效率。通过将先前工作扩展到强化学习训练的策略中,我们识别出两种失效模式:1)长输出会增加分散性;2)短输出会导致思考不足。
强化学习 推理长度 思维链 效率优化
论文聚焦于强化学习训练的语言模型的推理长度优化,直接涉及推理能力的核心问题。
Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models
Sangwon Yu, Ik-hwan Kim, Donghun Kang, Bongkyu Hwang, Junhwa Choi et al.
韩国国立首尔大学电气与计算机工程系
9/10 2026-02-10 cs.CL PDF
现代大型语言模型(LLMs)通过使用搜索增强推理,在复杂任务中表现出色,能够将外部知识整合到长链推理中。然而,本文识别出该范式中一个关键但尚未被充分研究的瓶颈,称为知识整合衰减(KID)。具体而言,随着推理链在搜索前变长,模型越来越难以将检索到的证据整合到后续推理步骤中,从而限制了性能,即使相关信息可用。为了解决这一问题,本文提出了一种无需训练的推理时策略——自锚定知识编码(SAKE),旨在稳定知识利用。通过在推理过程的开始和结束处锚定检索到的知识,SAKE防止其被先前上下文所掩盖,从而保持其语义完整性。在多跳问答和复杂推理基准上的大量实验表明,SAKE显著缓解了KID并提升了性能,为代理式LLM中的知识整合提供了一个轻量而有效的解决方案。
知识整合 推理衰减 搜索增强推理 语义完整性 LLM优化
论文聚焦于LLM在推理过程中知识整合的衰减问题,直接涉及推理能力中的知识利用与逻辑链条稳定性。
Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
Yizhi Wang, Linan Yue, Min-Ling Zhang
东南大学计算机科学与工程学院,东南大学关键软件与信息系统集成(SEU),中国教育部
9/10 2026-02-10 cs.AI PDF
长链思维(Long CoTs)广泛应用于多模态推理模型中,以捕捉详细的视觉信息来解决复杂任务。然而,这些长链思维通常过于冗长且包含重复的推理步骤,可能影响推理效率。压缩这些长链思维是一个自然的解决方案,但现有方法面临两个主要挑战:(1)移除关键对齐线索可能会损害视觉-文本推理的完整性;(2)压缩过程缺乏可解释性,难以判断哪些信息是关键的。为了解决这些问题,我们提出了XMCC,一种可解释的多模态思维链压缩器,将压缩建模为通过强化学习优化的顺序决策过程。XMCC能够在保持关键推理步骤和答案正确性的前提下有效缩短推理轨迹,并同时生成其压缩决策的自然语言解释。在代表性多模态推理基准上的大量实验表明,XMCC不仅减少了推理长度,还提供了可解释的解释,验证了其有效性。
思维链压缩 可解释性 多模态推理 强化学习
论文聚焦于多模态推理模型中的思维链压缩与可解释性,直接涉及LLM/Agent的推理能力提升。
Code
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu et al.
北京大学
9/10 2026-02-10 cs.AI PDF
大型视觉-语言模型(LVLMs)在地理定位任务中表现出较强的推理能力,但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。现有方法受限于内部知识,难以提供可验证的结果。为此,本文提出SpotAgent框架,将地理定位形式化为一种代理推理过程,通过专家级推理将视觉解释与工具辅助验证相结合。SpotAgent利用外部工具(如网络搜索、地图)通过ReAct图谱主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程,包括监督微调(SFT)、基于多智能体框架合成高质量轨迹的代理冷启动阶段以及强化学习优化推理能力。此外,提出了一种空间感知动态过滤策略以提高强化学习阶段的效率。实验表明,SpotAgent在标准基准上达到最先进水平,有效缓解了幻觉问题,实现了精确且可验证的地理定位。
视觉-语言模型 地理定位 代理推理 工具调用 强化学习
论文核心围绕基于代理推理的地理定位,强调推理与工具验证的结合。
Breaking the Pre-Sampling Barrier: Activation-Informed Difficulty-Aware Self-Consistency
Taewoong Yoon, Geunyeong Jeong, Geon Park, Sihyeong Yeom, Harksoo Kim
韩国国立大学
9/10 2026-02-10 cs.CL PDF
自一致性(SC)是一种有效的解码策略,通过生成多个思维链推理路径并利用多数投票选择最终答案,从而提升大语言模型(LLMs)的推理性能。然而,该方法因需要大量样本而带来显著的推理成本。为缓解这一问题,难度自适应自一致性(DSC)被提出,通过根据问题难度调整样本数量以减少简单问题的冗余计算。但DSC需要额外的模型调用和预采样来估计难度,导致计算开销较大。本文提出基于激活信息的难度感知自一致性(ACTSC),利用前馈网络神经元激活中的内部难度信号构建轻量级难度估计探针,无需额外的token生成或模型调用。该探针可动态调整SC的样本数量,并适用于新数据集而无需预采样。实验结果表明,ACTSC在保持精度的同时有效降低了推理成本。
推理优化 自一致性 难度估计 激活分析 解码策略
论文聚焦于提升LLM推理性能的解码策略,直接涉及推理能力优化。
The Critical Horizon: Inspection Design Principles for Multi-Stage Operations and Deep Reasoning
Seyed Morteza Emadi
肯塔基-弗拉格勒商学院,北卡罗来纳大学教堂山分校
9/10 2026-02-10 stat.ML PDF
制造流程、服务旅程、供应链和AI推理链面临共同挑战:将最终结果归因于导致它的中间阶段。本文从信息论角度建立了一个因果归因问题的理论屏障:连接早期步骤与最终结果的信号随深度呈指数衰减,从而形成一个临界视野,在此之外仅凭终点数据进行可靠学习需要指数级样本。文章证明了四个结论:首先,信号衰减边界表明,将结果归因于早期阶段所需的样本复杂度随中间步骤数量呈指数增长;其次,宽度限制表明并行执行只能提供对数级别的缓解,相关性限制了有效独立样本数量;第三,目标不匹配表明加法奖励聚合在顺序有效性要求所有步骤正确时优化了错误的目标;第四,最优检查设计表明,在均匀信号衰减下,均匀检查点间距是最优的,而在异质衰减下,贪心算法可生成最优非均匀安排。这些结果为操作中的检查设计和AI监督设计提供了统一的分析基础。
因果归因 深度推理 信息论 检查设计 AI监督
论文聚焦于深度推理中的因果归因问题,与LLM/Agent的推理能力密切相关。
Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
Haoran Xu, Hongyu Wang, Jiaze Li, Shunpeng Chen, Zizhao Tong et al.
浙江大学 小米公司
9/10 2026-02-10 cs.CV PDF
现有大语言模型在测试时的扩展定律强调通过延长推理长度来激发自反思行为。然而,这种垂直扩展策略在探索过程中常遇到瓶颈,模型容易陷入特定的思维模式。通过从深度转向并行性,平行推理可以缓解探索范围的缩小。然而,将这一范式扩展到视觉领域仍是一个开放的研究问题。本文首先探讨了视觉分割在并行推理中的作用,并提出了两种不同的策略。基于此,我们引入了Visual Para-Thinker,这是首个用于多模态大语言模型的并行推理框架。为保持路径独立性并促进推理多样性,我们的方法结合了Pa-Attention和LPRoPE。利用vLLM框架,我们开发了一个原生的多模态实现,支持高效的并行处理。在V*、CountBench、RefCOCO和HallusionBench等基准数据集上的实验证明,Visual Para-Thinker成功地将并行推理的优势扩展到了视觉领域。
parallel reasoning visual comprehension multimodal LLMs
论文聚焦于视觉领域中的并行推理框架,直接涉及LLM的推理能力提升。
Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan et al.
University of Southern California
9/10 2026-02-10 cs.AI PDF
多智能体系统(MAS)可以显著扩展大语言模型(LLMs)的推理能力,但大多数框架仍使用多数投票来聚合智能体输出。这种启发式方法忽略了推理轨迹中的证据结构,并在智能体共享相关偏见并收敛于相同错误理由的“虚构共识”情况下表现脆弱。本文引入了AgentAuditor,通过在显式表示智能体轨迹之间一致性和分歧的推理树上进行路径搜索,取代传统的投票机制。AgentAuditor通过比较关键分歧点的推理分支解决冲突,将全局裁决转化为高效的局部验证。此外,本文还提出了反共识偏好优化(ACPO),通过对多数失败案例训练裁决者,并奖励基于证据的少数选择而非流行错误,进一步提升效果。AgentAuditor与MAS设置无关,在5种主流设置中,其准确率比多数投票提高了高达5%,比使用LLM作为裁判提高了3%。
multi-agent reasoning verification LLM
论文聚焦于多智能体系统的推理过程,提出改进推理结果的方法,直接关联推理能力主题。
FM SO.P: A Progressive Task Mixture Framework with Automatic Evaluation for Cross-Domain SOP Understanding
Siyuan Huang, Ziyu Wang, Chao Pan, Han Zhao
Amazon Johns Hopkins University University of Illinois Urbana-Champaign
9/10 2026-02-10 cs.CL PDF
标准操作程序(SOPs)对企业运营至关重要,但现有语言模型在SOP理解和跨领域泛化方面存在困难。当前方法未能区分SOP所需的推理能力:术语精确性、顺序排序和约束推理。本文提出FM SO.P,通过两个创新点解决这些问题。首先,引入渐进任务混合,通过三个任务类型逐步构建能力:概念消歧以提高术语精确性、动作序列理解以确保流程正确性、以及场景感知图推理以处理条件逻辑。其次,提出一个自动多智能体评估系统,由三个智能体组成,能够自适应生成评分标准、分层测试集和评分规则,适用于不同领域(如DMV的时间约束、银行业的合规性)。在SOPBench上进行的七领域(银行、DMV、医疗、市场、大学、图书馆、酒店)评估表明,FM SO.P在32B模型上达到48.3%的通过率,在开源7B模型上达到34.3%,与Qwen-2.5-72B-Instruct基线(34.4%)相当,但参数量仅为后者1/10。
SOP理解 推理能力 多智能体评估 跨领域泛化
论文聚焦于SOP理解中的推理能力,包括术语精确性、顺序逻辑和条件推理,属于推理能力的核心研究。
$n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
Ryozo Masukawa, Sanggeon Yun, Hyunwoo Oh, SuhgHeon Jeong, Raheeb Hassa et al.
9/10 2026-02-09 cs.LG PDF
近期在可验证奖励强化学习(RLVR)方面的进展表明,小型专用语言模型(SLMs)可以在不依赖大型统一LLM的情况下表现出结构化推理能力。本文提出了一种软隐藏状态协作机制,通过可训练的注意力接口将多个异构冻结SLM专家的内部表示进行整合。在Reasoning Gym和GSM8K上的实验表明,这种潜在集成方法与强大的单模型RLVR基线相当。进一步的消融实验揭示了专家利用的双重机制:在较简单的算术领域中,性能提升主要由静态专家偏好解释;而在更具挑战性的设置中,随着训练过程的推进,专家注意力逐渐集中并结构化,表明路由器在连接相关专家时出现了新兴的专业化现象。总体而言,隐藏状态协作提供了一种紧凑的机制来利用冻结专家,同时为观察专家使用模式及其在RLVR下的演变提供了窗口。
强化学习 多模型协作 结构化推理 专家系统 可验证奖励
论文聚焦于语言模型的结构化推理能力,通过强化学习实现专家协作提升推理表现。
iGRPO: Self-Feedback-Driven LLM Reasoning
Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han et al.
University of Washington Stanford
9/10 2026-02-09 cs.AI PDF
大型语言模型(LLMs)在解决复杂数学问题方面展现出潜力,但其生成的解决方案仍不够准确和一致。强化学习(RL)为对齐这些模型与任务特定奖励提供了框架,从而提高整体质量和可靠性。本文提出迭代组相对策略优化(iGRPO),这是组相对策略优化(GRPO)的两阶段扩展,通过模型生成的草稿实现动态自条件化。第一阶段中,iGRPO采样多个探索性草稿并选择最高奖励的草稿;第二阶段则将最佳草稿附加到原始提示中,并进行基于草稿条件的改进训练。实验表明,iGRPO在多种推理基准测试中均优于GRPO,并在AIME24和AIME25上取得了新的最先进结果。此外,消融实验显示,该方法具有良好的泛化能力,并能延迟熵崩溃,进一步验证了其有效性。
强化学习 数学推理 自反馈 GRPO LLM优化
论文聚焦于提升LLM在数学推理中的准确性,提出基于自反馈的强化学习方法,直接关联推理能力提升。
CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute
Chen Jin, Ryutaro Tanno, Tom Diethe, Philip Teare
9/10 2026-02-09 cs.AI PDF
大型语言模型(LLMs)通常依赖于测试时的并行解码(例如512个样本)来提高推理准确性,但这会带来巨大的计算开销。本文提出CoRefine,一种基于置信度引导的自修正方法,通过在冻结的LLM之上使用轻量级的Conv1D控制器(参数量为211k),仅使用少量token即可达到与基线相当的精度。该控制器利用完整的置信度轨迹决定是否停止、重新审视或尝试不同方法,实现每道题平均2.7次修正步骤,并相对于512样本基线减少约190倍的token数量。在多个推理基准和三个开源模型上,控制器在自信停止时达到92.6%的精度,表明置信度动态可以可靠地指示正确性而无需真实标签验证。此外,作者扩展了CoRefine-Tree,一种混合顺序-并行变体,能够自适应平衡探索与利用,具备易于服务集成和验证器兼容性。通过将置信度视为控制信号而非正确性保证,CoRefine为可扩展推理和具有不完美验证器的智能体环境提供了一个模块化基础。
推理优化 置信度引导 自修正机制 计算效率 LLM推理
论文聚焦于提升LLM推理准确性的方法,核心是通过置信度引导的自修正机制优化推理过程。
CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse
Longling Geng, Andy Ouyang, Theodore Wu, Daphne Barretto, Matthew John Hayes et al.
Stanford UniversityStanfordCAUSA
9/10 2026-02-09 cs.AI PDF
大型语言模型(LLM)在因果推理中存在诸多失败案例,包括谄媚行为、层级崩溃和校准不当的拒绝,但目前缺乏系统性诊断基准。本文提出CausalT5K,一个包含超过5000个案例、覆盖10个领域的诊断基准,用于测试三个关键能力:检测层级崩溃、在对抗压力下抵抗谄媚偏差,以及生成明智的拒绝以明确信息缺失情况。该基准通过嵌入现实叙事中的因果陷阱,并将性能分解为效用(敏感度)和安全(特异性),揭示了传统准确率指标无法发现的失败模式。CausalT5K通过严谨的人机协作流程开发,结合40位领域专家、迭代交叉验证和基于规则、LLM和人工评分的综合验证,实现了Pearl的因果阶梯理论作为研究基础设施。初步实验表明,静态审计策略在四象限控制景观中普遍失效,证明了CausalT5K在推动可信推理系统发展中的价值。
因果推理 可信AI 基准测试 模型诊断
论文聚焦于因果推理中的失败模式及改进,直接涉及LLM的推理能力评估与提升。
Code
Is Reasoning Capability Enough for Safety in Long-Context Language Models?
Yu Fu, Haz Sameen Shahgir, Huanli Gong, Zhipeng Wei, N. Benjamin Erichson et al.
9/10 2026-02-09 cs.CL PDF
随着大语言模型(LLMs)在长上下文处理和高级推理方面的能力不断增强,它们能够检索并合成分布在数万个token中的信息。本文假设更强的推理能力应能通过帮助模型识别隐含的有害意图来提升安全性。然而,在长上下文中隐含有害意图必须通过推理推断的情况下,我们发现这一假设并不成立。我们引入了一种新的威胁模型——组合推理攻击,其中有害查询被分解为分散在长上下文中的不完整片段。模型随后被一个中立的推理查询提示,诱导其检索和合成信息,从而在组合后才显现出有害意图。通过对14个前沿LLMs在长达64k token的上下文中进行评估,我们发现了三个主要结论:(1)具有更强一般推理能力的模型对组合推理攻击并不更鲁棒,常常能够组装出意图却未能拒绝;(2)随着上下文长度增加,安全性对齐持续下降;(3)推理时的计算量是关键缓解因素:在GPT-oss-120b模型上,增加推理时的计算量可使攻击成功率降低超过50个百分点。这些结果表明,安全性并不会自动随推理能力提升而扩展,特别是在长上下文推理条件下。
长上下文 推理攻击 模型安全性 LLM评估
论文核心研究LLM的推理能力与安全性的关系,提出并测试了组合推理攻击的新威胁模型。
AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection
Junru Zhang, Lang Feng, Haoran Shi, Xu Guo, Han Yu et al.
9/10 2026-02-09 cs.LG PDF
时间序列异常检测(TSAD)在多模态大语言模型(MLLMs)中是一个新兴领域,但其仍面临挑战:MLLMs依赖粗略的时间序列启发式方法,难以进行多维、细致的推理,这对理解复杂时间序列数据至关重要。本文提出AnomSeer,通过强化模型使其推理基于时间序列的精确结构细节,统一异常分类、定位和解释。核心是生成专家思维链迹,提供可验证的细粒度推理,基于经典分析(如统计指标、频率变换)。在此基础上,我们提出一种新的基于时间序列的策略优化方法(TimerPO),包含两个额外组件:基于最优传输的时间序列优势函数和正交投影,以确保辅助信号不干扰主要检测目标。实验表明,在多种异常场景下,AnomSeer在分类和定位精度上优于更大的商业基线(如GPT-4o),特别是在点异常和频率驱动异常方面表现突出,并能生成支持结论的时间序列推理轨迹。
时间序列异常检测 多模态大语言模型 强化学习 推理能力 策略优化
论文聚焦于增强LLM的多维、细粒度推理能力以实现时间序列异常检测,直接涉及推理机制的改进。
Deciding the Satisfiability of Combined Qualitative Constraint Networks
Quentin Cohen-Solal, Alexandre Niveau, Maroua Bouzid
9/10 2026-02-09 cs.AI PDF
在人工智能领域,定性推理能够在缺乏精确数值信息的情况下推导新知识。本文提出了一种形式化框架,统一多种定性形式主义的扩展与组合方式,包括多尺度推理、时间序列和松散集成等。该框架不仅支持对这些组合和扩展进行推理,还以统一的方式研究其可满足性判定及其复杂度。特别地,本文建立了两个互补定理,证明了可满足性判定是多项式时间的,并利用它们恢复了已知的规模-拓扑组合结果。此外,本文还扩展了定性形式主义的主要定义,涵盖了文献中未包含的重要形式主义,这对组合场景具有重要意义。
定性推理 可满足性判定 形式化框架 组合推理
论文聚焦于定性推理的可满足性判定,属于推理能力的核心研究内容。
Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems
Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
[
9/10 2026-02-09 cs.LG PDF
多智能体LLM系统通过角色专业化实现了高级推理和工具使用,但可靠的强化学习(RL)后训练仍具有挑战性。本文从理论上指出了在将基于群体的RL扩展到多智能体LLM系统时训练不稳定的关键原因。研究表明,在GRPO风格优化下,全局归一化基线可能偏离不同智能体的奖励分布,最终导致梯度范数不稳定。基于此发现,我们提出了Dr. MAS,一种简单且稳定的多智能体LLM系统RL训练方案。Dr. MAS采用逐智能体的解决方案:利用每个智能体自身的奖励统计信息对优势进行归一化,从而校准梯度尺度并显著稳定训练。此外,Dr. MAS还提供了一个端到端的RL训练框架,支持可扩展的调度、灵活的每智能体LLM服务与优化配置以及共享资源调度。我们在多智能体数学推理和多轮搜索基准上评估了Dr. MAS,使用Qwen2.5和Qwen3系列模型,结果显示Dr. MAS在多个指标上均优于基础GRPO方法,并有效消除了梯度尖峰。
multi-agent LLM reinforcement learning training stability math reasoning tool use
论文聚焦于多智能体LLM系统的强化学习训练,旨在提升其推理与工具使用能力,属于推理能力的核心研究。
Bayesian Preference Learning for Test-Time Steerable Reward Models
Jiwoo Hong, Shao Tang, Zhipeng Wang
9/10 2026-02-09 cs.LG PDF
奖励模型是通过强化学习将语言模型与人类偏好对齐的核心。随着RL应用于可验证奖励和多目标对齐等场景,奖励模型需要编码更复杂和多维的偏好分布。然而,传统的分类奖励模型一旦训练完成即保持静态,限制了其在测试时的适应能力。本文提出了一种新的贝叶斯奖励建模目标——变分上下文奖励建模(ICRM),通过上下文偏好示例实现测试时的可控性。ICRM将奖励建模视为基于Bradley-Terry模型下的潜在偏好概率的变分推断,并使用共轭Beta先验。实验表明,ICRM在单目标和多目标设置中均能适应未见过的偏好分布,在SafeRLHF数据集上准确率提升34%,在RM-Bench上提升9%。此外,ICRM在帮助性和拒绝基准上扩展了帕累托前沿。研究还表明,ICRM在数学推理任务中优于传统奖励模型,并提供了理论保证:变分目标具有有限置信度下的全局内部最优解,同时分析了KL正则化如何缓解奖励过度优化问题。
强化学习 奖励模型 偏好学习 贝叶斯推断 数学推理
论文聚焦于奖励模型的可调整性,强调推理能力在多目标对齐和数学推理中的应用。
Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure
Zirui Li, Xuefeng Bai, Kehai Chen, Yizhi Li, Jian Yang et al.
9/10 2026-02-09 cs.AI PDF
隐式或连续推理链方法通过内部潜在步骤替代显式文本推理,但这些中间计算难以评估。本文将隐式推理链建模为表示空间中的可操作因果过程,利用结构因果模型(SCM)分析其影响。研究在数学和通用推理任务中对两种代表性范式(Coconut和CODI)进行分析,探讨三个关键问题:哪些步骤对正确性是因果必要的?推理过程中影响如何传播?中间轨迹是否保留竞争答案模式?结果表明,潜在步骤预算更类似于分阶段功能而非均匀深度,并发现早期输出偏差与后期表示承诺之间存在持续差距。这些发现推动了基于模式条件和稳定性感知的分析及训练/解码目标,以改进隐式推理系统。
因果推理 隐式推理链 结构因果模型 推理分析
论文聚焦于隐式推理过程的因果结构,直接探讨LLM的推理机制与内部步骤。
PRISM: A Principled Framework for Multi-Agent Reasoning via Gain Decomposition
Yiming Yang, Zhuoyuan Li, Fanxiang Zeng, Hao Fu, Yue Liu
AMap, Alibaba GroupBeijingChina
9/10 2026-02-09 cs.AI PDF
多智能体协作已被视为增强大语言模型(LLMs)推理能力的一种有前景的范式。然而,现有方法大多依赖启发式策略,缺乏对性能提升驱动因素和系统优化原则的指导。本文提出一个统一的理论框架,将多智能体推理的收益分解为三个独立维度:探索(用于覆盖多样化的解决方案)、信息(用于提供高保真反馈)和聚合(用于达成原则性共识)。基于这一分解,提出了一个新的框架PRISM,通过角色多样性、基于证据的交叉评估反馈以及闭环验证的迭代合成,联合最大化这三个维度。在数学推理、代码生成和函数调用等基准测试中,PRISM表现出优于仅优化部分维度的方法的最先进性能,并具有更高的计算效率。该理论框架为未来多智能体推理系统提供了可操作的设计原则。
multi-agent reasoning gain decomposition PRISM framework consensus aggregation exploration and feedback
论文聚焦于多智能体推理能力的提升,提出理论框架和系统方法,直接关联推理能力主题。
Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
Xinhai Sun
9/10 2026-02-09 cs.AI PDF
现代大型语言模型(LLMs)通常在一次性、贪婪推理协议下进行评估和部署,尤其是在需要确定性行为的专业场景中。这种模式可能会系统性低估固定模型的真实能力:许多错误并非源于知识缺失,而是由于内部模糊性导致的过早决策。本文提出强化推理(Reinforcement Inference),一种基于熵的推理时控制策略,利用模型自身的不确定性选择性地调用第二次更谨慎的推理尝试,在无需重新训练的情况下实现更强的性能。在12,032个MMLU-Pro问题上,使用DeepSeek-v3.2模型在零样本设置下进行确定性解码,强化推理将准确率从60.72%提升至84.03%,仅增加61.06%的额外推理调用。实验表明,基于不确定性的选择能够捕捉大部分可实现的改进,并且与仅使用提示的方法相比效果显著。研究还提出了一个更广泛的熵感知范式,用于衡量和扩展模型能力,并指出当前解码器模型生成输出时,熵和置信度自然成为生成过程中的关键控制信号。
不确定性感知 推理优化 自修正机制 语言模型推理
论文聚焦于提升LLM的推理能力,通过引入不确定性感知的推理机制实现自我修正。
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
9/10 2026-02-09 cs.CV PDF
自我纠正是解决视觉语言模型(VLMs)复杂推理问题的关键。然而,现有的强化学习方法在学习自我纠正方面存在困难,因为有效的自我纠正行为极为罕见,导致学习信号极其稀疏。为了解决这一挑战,我们提出了一种基于回滚增强的框架Octopus,该框架通过重新组合现有回滚生成密集的自我纠正示例。这种增强方法通过回滚重用提高了样本效率,并通过平衡监督稳定了强化学习优化。此外,我们引入了一种响应掩码策略,将自我纠正与直接推理解耦,避免了信号冲突,使两种行为都能有效学习。在此基础上,我们提出了Octopus-8B,一种具有可控自我纠正能力的推理VLM。在7个基准测试中,其表现优于开源VLM中的最先进模型,在每步训练时间仅为0.72倍的情况下,比最佳RLVR基线高出1.0分。
视觉语言模型 自我纠正 强化学习 推理能力 回滚增强
论文聚焦于视觉语言模型的自我纠正能力,属于推理能力提升的核心研究。
Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards
Xiaodong Lu, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin et al.
Beihang University
9/10 2026-02-09 cs.LG PDF
可验证奖励强化学习(RLVR)是一种有效提升大语言模型推理能力的范式。然而,现有RLVR方法在使用展开策略时存在短视和无差别处理的问题:每个提示中的异质响应质量被统一对待,历史展开结果仅使用一次后即被丢弃,导致监督噪声大、样本效率低和策略更新次优。本文将RLVR中的展开调度建模为上下文老虎机问题,并提出一个统一的神经调度框架,在训练过程中自适应选择高价值的展开。每个展开被视为一个臂,其奖励由连续优化步骤间的性能增益定义。该调度器支持噪声感知的组内选择和历史展开的全局自适应重用。理论分析表明,扩展展开缓冲区可以提高性能上限。实验在六个数学推理基准上验证了该方法在多个RLVR优化方法中的一致性能提升和训练效率改进。
强化学习 可验证奖励 推理能力 上下文老虎机 展开调度
论文聚焦于通过强化学习提升大语言模型的推理能力,直接关联到推理能力这一主题。
Beyond Correctness: Learning Robust Reasoning via Transfer
Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
9/10 2026-02-09 cs.LG PDF
尽管基于可验证奖励的强化学习(RLVR)增强了大语言模型(LLM)的推理能力,但其关注点仅限于最终答案的正确性,忽略了推理过程本身的鲁棒性。本文提出一种哲学观点,即鲁棒推理应超越其生成者的思维,并将其视为一种能够经受截断、重新解释和延续的意义迁移形式。基于此,我们引入了基于可迁移奖励的强化学习(RLTR),通过测试一个模型的部分推理前缀是否能引导另一个模型得出正确答案来衡量推理的鲁棒性。该方法鼓励LLM生成稳定、可解释且真正可推广的推理过程。实验表明,RLTR在采样一致性与最终答案准确性上均有所提升,并且在显著更少的训练步骤内达到与RLVR相当的性能。例如,在MATH500数据集上,RLTR在Maj@64指标上比RLVR提升了3.6个百分点,并且仅用约2.5倍的训练步数就达到了RLVR的平均准确率。
强化学习 推理鲁棒性 迁移学习 LLM训练
论文聚焦于增强LLM的推理鲁棒性,提出新的训练方法以提升推理过程的稳定性和可迁移性。
SCOUT-RAG: Scalable and Cost-Efficient Unifying Traversal for Agentic Graph-RAG over Distributed Domains
Longkun Li, Yuanben Zou, Jinghan Wu, Yuqing Wen, Jing Li et al.
9/10 2026-02-09 cs.AI PDF
Graph-RAG通过结构化知识提升LLM的推理能力,但传统设计依赖于集中式知识图谱。在分布式和访问受限的场景(如医院或跨国组织)中,检索需在无全局图可见性和全面查询的情况下选择相关领域并确定适当的遍历深度。为解决这一问题,本文提出SCOUT-RAG(可扩展且成本高效的统一遍历框架),一种分布式智能体Graph-RAG框架,通过渐进式跨领域检索实现基于增量效用目标的指导。SCOUT-RAG采用四个协作智能体:(i) 估计领域相关性,(ii) 决定何时扩展到其他领域,(iii) 调整遍历深度以避免不必要的图探索,(iv) 综合生成高质量答案。该框架旨在最小化检索遗憾(即遗漏有用领域信息),同时控制延迟和API成本。在多领域知识设置中,SCOUT-RAG的表现与集中式基线(如DRIFT和全面领域遍历)相当,同时显著减少了跨领域调用、处理的总token数和延迟。
Graph-RAG 分布式检索 智能体协作 推理优化
论文聚焦于通过分布式图RAG提升LLM的推理能力,属于推理能力的核心研究。
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.
北京航空航天大学
9/10 2026-02-09 cs.AI PDF
近年来,大型推理模型(LRMs)通过长链思维(CoTs)显著提升了复杂推理任务的能力。然而,这种方法常导致大量冗余,影响计算效率,并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含知道何时停止思考,但这一能力被当前采样范式所掩盖。为此,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新型采样范式,释放了这种高效的推理潜力。此外,将SAGE作为混合采样集成到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能够有效将SAGE发现的高效推理模式整合到标准pass@1推理中,显著提升多个具有挑战性的数学基准测试中LRMs的推理准确性和效率。
推理优化 采样范式 强化学习 LLM效率 数学推理
论文聚焦于LLM的推理过程优化,探讨其停止思考的机制并提出改进方法。
OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang et al.
National Engineering Research Center for Software Engineering, Peking University, Beijing, China
9/10 2026-02-09 cs.AI PDF
并行思考作为一种新的范式,已被用于大型推理模型(LRMs)解决复杂问题。近期方法利用强化学习(RL)来增强并行思考,以应对监督微调在计算资源和效果上的限制。然而,现有研究主要关注聚合阶段的优化,对路径探索阶段关注较少。本文在可验证奖励强化学习(RLVR)框架下,理论分析了并行思考的优化,并指出探索路径间的互信息瓶颈是限制整体性能的根本原因。为此,我们提出大纲引导的路径探索(OPE),通过生成多样化的推理大纲,在并行路径推理前显式划分解空间,从而减少信息冗余并提高探索路径中捕获的信息多样性。我们采用迭代RL策略独立优化大纲规划和大纲引导推理。大量实验表明,OPE在不同聚合策略下有效提升了推理性能,使LRMs更可靠地发现正确解。
并行推理 强化学习 路径探索 信息瓶颈 数学推理
论文聚焦于提升大型推理模型的并行推理能力,直接涉及推理机制与路径探索优化。
CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT
Chengyi Du, Yazhe Niu, Dazhong Shen, Luxin Xu
中国电子科技大学电子科学与技术学院 上海人工智能实验室 香港中文大学MMLab 南京航空航天大学计算机科学与技术学院
9/10 2026-02-09 cs.AI PDF
尽管视觉语言模型(VLMs)在图像-文本对齐方面取得了显著进展,但它们仍难以达到人类级别的视觉推理能力。当前许多VLMs依赖于表面相关性而非构建逻辑连贯的结构化表示,导致高层次语义结构和非因果关系的理解缺失,阻碍了组合性和可验证推理的发展。为了解决这些问题,本文提出CoTZero,一种无需标注的人类级视觉推理范式,包含两个核心组件:(i)双阶段数据合成方法;(ii)认知对齐训练方法。在第一部分中,CoTZero受到神经认知学关于组合生成能力和全局到局部分析的启发,在自底向上阶段提取基本视觉原语并逐步组成多样化的结构化问题-推理形式;在自顶向下阶段,利用粗粒度全局结构引导局部细节和因果关系的解释。在第二部分中,基于合成的CoT数据,引入认知一致的可验证奖励(CCVR),在强化微调(RFT)中进一步加强VLMs的层次推理与泛化能力,并提供分步反馈以确保推理的一致性和事实正确性。实验表明,CoTZero在多层级语义不一致性基准测试中达到了83.33%的F1分数,且在领域内和跨领域设置中均表现良好。消融实验确认了每个组件对更可解释和符合人类推理的视觉推理的贡献。
视觉语言模型 推理能力 思维链 认知对齐 数据合成
论文聚焦于视觉语言模型的推理能力提升,提出基于层次合成思维链的方法增强其因果关系和语义结构理解。
UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models
Cheng Yang, Chufan Shi, Bo Shui, Yaokang Wu, Muzi Tao et al.
伊利诺伊大学厄巴纳-香槟分校 卡内基梅隆大学
9/10 2026-02-09 cs.CL PDF
为解决复杂和隐含的视觉需求,近期统一多模态模型越来越多地采用思维链推理来指导图像生成。然而,推理对视觉合成的实际效果仍不清楚。本文提出UReason,一个用于评估推理驱动图像生成的诊断基准,检验推理是否能忠实地在像素层面执行。UReason包含五个任务类别(代码、算术、空间、属性和文本推理)共2000个实例。通过引入比较直接生成、推理引导生成和去上下文生成的评估框架,我们发现了一个普遍存在的‘推理悖论’:推理轨迹通常比直接生成提升性能,但保留中间思考作为条件上下文往往会阻碍视觉合成,而仅基于精炼提示的生成则显著提升效果。分析表明瓶颈在于上下文干扰而非推理能力不足。UReason为研究统一模型中的推理提供了一个原理性测试平台,并激励未来有效整合推理以进行视觉生成同时缓解干扰的方法。
推理能力 多模态模型 图像生成 上下文干扰 基准测试
论文核心研究统一多模态模型中的推理能力及其对图像生成的影响,直接涉及推理机制与性能评估。
Code
Latent Reasoning with Supervised Thinking States
Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig et al.
Google Research
9/10 2026-02-09 cs.CL PDF
通过链式思维(CoT)进行推理使大语言模型(LLMs)能够解决复杂任务,但由于生成长篇解释而带来显著的推理成本。本文提出了一种名为Thinking States的方法,在输入处理过程中进行推理。具体而言,Thinking States在每几个输入标记后生成一系列思考标记,将这些思考转换回嵌入空间,并将其添加到后续输入标记中。该方法具有两个关键优势:首先,它捕捉了CoT的递归特性,但思考标记是在输入处理过程中生成的;其次,由于思考标记以标记形式表示,因此可以从自然语言监督中学习,并利用可并行化的教师强制方法。实验证明,Thinking States在多个推理任务上优于其他潜在推理方法,在数学问题上缩小了与CoT的差距,并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中,Thinking States表现出比CoT更强的推理行为,成功地扩展到了训练期间未见过的更长序列。
chain-of-thought latent reasoning token-based reasoning natural language supervision
论文聚焦于LLM的推理能力,提出了一种新的隐式推理方法Thinking States,直接针对推理过程进行优化。
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong et al.
浙江大学 微软研究院
9/10 2026-02-09 cs.CL PDF
解决开放性科学问题仍然是大型语言模型面临的挑战,尤其由于监督和评估本身存在不可靠性。瓶颈在于科学微调阶段的数据构建与奖励设计。本文开发了一个大规模、系统的数据处理流程,将异构的开源科学数据转化为Dr. SCI数据集,包含八个STEM学科的100万个问题,并具有可验证的开放性问题划分、可扩展的难度标注以及细粒度评分标准,以操作化评估开放性答案。基于该数据集,本文提出了Dr. SCI微调流程,通过三个组件重新设计了标准的SFT->RL工作流:(i) 探索扩展SFT,在强化学习前拓宽模型的推理模式覆盖范围;(ii) 动态难度课程,根据模型科学能力的演变调整训练数据;(iii) SciRubric引导的RL,通过基于评分标准的评估实现对开放性科学问题的稳定强化学习。使用Dr. SCI流程训练的Qwen3-4B-Base在GPQA-diamond上达到63.2分,在GPQA-general上达到32.4分,显著优于如o1-mini和GPT-4o等强基线模型,展示了在科学推理方面的显著提升,尤其是在开放性设置中。
科学推理 数据构建 强化学习 微调流程 开放性问题
论文聚焦于提升LLM的科学推理能力,涉及数据构建、奖励设计和训练流程优化。
VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction
Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen
University of Waterloo Autodesk AI Lab Independent
9/10 2026-02-09 cs.CV PDF
评估多模态大语言模型(MLLMs)是否真正具备物理动态推理能力仍具有挑战性。现有基准主要依赖视觉问答(VQA)和预期违反(VoE)等识别类协议,这些方法往往无需明确、可测试的物理假设即可回答问题。本文提出VisPhyWorld,一个基于执行的框架,通过要求模型从视觉观察中生成可执行的模拟器代码来评估物理推理能力。通过生成可运行的代码,推断出的世界表示可以直接检查、编辑和验证,从而将物理推理与渲染过程分离。基于该框架,我们引入了VisPhyBench,包含209个评估场景,源自108个物理模板,并采用系统化协议评估模型在重建外观和再现物理合理运动方面的表现。实验表明,尽管最先进的MLLMs在语义场景理解方面表现出色,但它们在准确推断物理参数和模拟一致的物理动态方面仍存在困难。
物理推理 代码生成 多模态模型评估 视频重建
论文聚焦于评估模型对物理动态的推理能力,提出基于代码生成的评估框架,直接检验物理推理。
Code
New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR
Zhilin Wang, Yafu Li, Shunkai Zhang, Zhi Wang, Haoran Zhang et al.
中国科学技术大学上海实验室 南京大学
9/10 2026-02-09 cs.CL PDF
强化学习与可验证奖励(RLVR)是否赋予大语言模型新的能力,抑或仅激发了潜在能力,仍是核心争议。本文支持前者观点,提出一种概率框架,将能力定义为实例级可解性。我们假设复杂推理的出现可通过增强原子步骤的概率实现,从而克服多步推理链中成功率指数衰减的问题。利用Algebrarium框架,我们在单步操作上训练模型,并在未见过的多步任务上评估其性能。实证结果表明:(1) RLVR通过放大模型现有技能,激励探索之前无法访问的解决方案路径;(2) 复合性能严格受原子步骤联合概率支配,高皮尔逊相关系数(ρ∈[0.69, 0.96])佐证此点;(3) RLVR作为全局优化器,可能导致特定技能被牺牲以最大化总体奖励。本研究为RLVR中涌现能力提供了新解释,表明通过可解问题的迭代优化,模型能够发展出解决此前不可解场景的能力。
强化学习 推理能力 概率框架 RLVR 多步任务
论文聚焦于强化学习中推理能力的涌现机制,探讨原子步骤概率优化对复杂推理的影响。
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao et al.
北卡罗来纳大学教堂山分校计算机科学系
9/10 2026-02-09 cs.CV PDF
尽管多模态大语言模型(MLLMs)取得了快速进展,但在正确答案依赖于未见过或替代视角下场景外观的情况下,视觉空间推理仍然不可靠。近期的研究通过引入世界模型进行视觉想象来增强推理能力,但关于何时需要想象、多少想象是有益的以及何时会带来负面影响的问题仍不明确。本文对测试时的视觉想象作为可控资源进行了深入分析,研究了静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为此,我们提出了AVIC框架,该框架在选择性调用和扩展视觉想象之前,显式地推理当前视觉证据的充分性。实验结果表明,在多个空间推理基准(SAT、MMSI)和具身导航基准(R2R)上,想象在某些情况下是关键的、边际的或有害的,并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言,我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。
视觉空间推理 世界模型 测试时想象 自适应控制
论文聚焦于视觉空间推理中的想象机制,探讨其必要性与控制策略,属于推理能力的核心研究。
Code
Pretraining with Token-Level Adaptive Latent Chain-of-Thought
Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song et al.
LUMIA Lab, School of Artificial Intelligence, Shanghai Jiao Tong University Shanghai Innovation Institute, Shanghai Jiao Tong University Sun Yat-sen University
9/10 2026-02-09 cs.CL PDF
随着参数和训练数据的增加,大规模语言模型的扩展受到高质量语料库有限和通信成本上升的限制。本文探索了一种替代方法:在不增加参数的情况下,通过将潜在思维链(CoT)内化到预训练中,提高每个标记的计算量。我们提出了一种基于标记级自适应潜在CoT的预训练方法,其中模型在生成每个标记之前生成一个可变长度的潜在CoT轨迹,并根据标记难度分配不同长度的轨迹。该行为通过在通用文本上进行单阶段预训练自然产生,并通过标记级别的自适应停止减少训练和推理中的计算量。实验表明,与之前的循环基线相比,即使使用更少的训练FLOPs,自适应潜在CoT也能持续提升语言建模的困惑度和下游任务的准确性。
Chain-of-Thought Pretraining Adaptive Computation Language Modeling
论文聚焦于提升LLM的推理能力,通过引入自适应潜在思维链机制增强模型推理效果。
RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection
Ziwei Wang, Yuanhe Zhang, Jing Chen, Zhenhong Zhou, Ruichao Liang et al.
School of Cyber Science and Engineering, Wuhan University, Wuhan, China
9/10 2026-02-09 cs.AI PDF
大型推理模型(LRMs)通过推理解决复杂任务,但其显式推理需要更长的上下文长度,导致资源消耗显著增加。先前研究表明,对抗性输入可能触发冗余推理过程,使LRMs面临资源耗尽的漏洞。然而,推理过程本身,尤其是其反思部分,尚未受到足够关注,尽管它可能导致过度反思并消耗大量计算资源。本文引入递归熵来量化反思过程中的资源消耗风险,揭示推理过程本身的安全隐患。基于递归熵,我们提出RECUR,一种通过递归熵引导的反事实利用与反思的资源耗尽攻击方法。该方法构建反事实问题以验证LRMs的内在缺陷和风险。大量实验表明,在正常推理下,递归熵呈现明显下降趋势,而RECUR破坏了这一趋势,使输出长度增加高达11倍,并将吞吐量降低90%。本研究为鲁棒推理提供了新的视角。
资源消耗 推理安全 对抗攻击 递归熵 反思机制
论文聚焦于LLM的推理过程及其资源消耗问题,核心研究推理机制中的反思部分。
DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning
Haoran Liu, Zheni Zeng, Yukun Yan, Yuxuan Chen, Yunduo Xiao
生物医学与生物工程学院,北京航空航天大学,北京100191,中国 电子与计算机工程学院,北京工业大学,北京,中国 电子与计算机工程学院,清华大学,北京,中国
9/10 2026-02-09 cs.LG PDF
分子生成与优化是化学领域的一项基础任务。随着智能工具(尤其是具有强大知识储备和交互能力的大语言模型)的快速发展,为该任务提供了新的范式。然而,LLMs在分子结构与药理性质之间的复杂隐含关系以及缺乏相应标注数据方面仍面临内在挑战。为此,我们提出DrugR,一种基于LLM的方法,将显式的、逐步的药理推理引入优化过程。该方法整合了领域特定的持续预训练、通过反向数据工程进行的监督微调以及自平衡的多粒度强化学习。这一框架使DrugR能够有效提升关键ADMET性质,同时保留原始分子的核心疗效。实验结果表明,DrugR在多个性质上实现了全面增强,而不会牺牲结构相似性或靶标结合亲和力。重要的是,其显式推理过程为每一步优化提供了清晰、可解释的理由,从而产生可操作的设计见解,并推动自动化、知识驱动的科学发现。我们的代码和模型检查点已开源以促进未来研究。
分子优化 药理推理 LLM应用 强化学习 ADMET性质
论文核心在于引入显式药理推理优化分子药物,直接关联推理能力主题。
Emergent Search and Backtracking in Latent Reasoning Models
Jasmine Cui, Charles Ye
9/10 2026-02-08 cs.CL PDF
当语言模型在无语言的情况下进行推理时会发生什么?标准的推理大语言模型通过链式思维(chain-of-thought)显式表达中间步骤,而潜空间推理变压器(LRTs)则完全在连续隐藏空间中进行推理。本文研究了一种LRT模型,在多选问答基准测试中解码模型在每一步的演变信念。发现该模型自发地学习了潜空间中的结构化搜索过程。推理过程遵循一致的轨迹:探索阶段概率质量分布在候选答案上,临时承诺一个领先选项,然后要么收敛,要么回溯。回溯现象普遍存在(32%的实例),且有益(比非回溯实例准确率提高34%),主要指向语义上最接近的干扰项以外的正确答案。搜索是自适应的:用不合理的替代项替换干扰项可使探索时间缩短54%。潜空间推理模型在激活空间中实现了链式思维通过语言实现的能力:能够犯错、察觉并恢复。
潜空间推理 回溯机制 链式思维 多选问答 模型行为分析
论文聚焦于LLM在潜空间中的推理过程,探讨其搜索与回溯机制,直接关联推理能力。
Free(): Learning to Forget in Malloc-Only Reasoning Models
Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang et al.
[
9/10 2026-02-08 cs.AI PDF
推理模型通过扩展测试时计算能力来增强问题解决能力,但面临一个关键悖论:过多的思考标记往往会降低而非提高性能。我们将其归因于一种基本的架构缺陷:标准LLM作为“仅malloc”的引擎,持续积累有效和冗余的步骤,而没有机制来修剪过时信息。为打破这一循环,我们提出了Free()LM,该模型通过可插拔的LoRA适配器引入内在的自我遗忘能力。通过在推理和清理模式之间迭代切换,Free()LM动态识别并修剪无用的上下文块,从而保持紧凑且无噪声的状态。大量实验表明,Free()LM在所有模型规模(8B到685B)上均取得一致改进,甚至在IMOanswerBench上使用DeepSeek V3.2-Speciale实现了新的SOTA。特别是在长周期任务中,当标准Qwen3-235B-A22B模型完全崩溃(0%准确率)时,Free()LM将性能恢复至50%。我们的发现表明,可持续智能需要与思考能力同样重要的遗忘自由。
推理优化 自我遗忘 LoRA 冗余信息处理 模型压缩
论文聚焦于推理模型中的信息冗余问题,提出遗忘机制以提升推理性能,属于推理能力的核心研究。
Diverge to Induce Prompting: Multi-Rationale Induction for Zero-Shot Reasoning
Po-Chun Chen, Hen-Hsen Huang, Hsin-Hsi Chen
9/10 2026-02-08 cs.CL PDF
为了解决标准思维链提示中无引导推理路径的不稳定性,近期方法通过首先激发单一推理策略来指导大语言模型(LLMs)。然而,仅依赖单一策略仍可能限制在多样化任务中的性能。本文提出发散诱导提示(DIP)框架,首先提示LLM为每个问题生成多个多样化的高层理由,然后将每个理由扩展为详细的逐步草案计划,最终将这些草案计划归纳为最终计划。DIP在无需资源密集型采样的情况下提升了零样本推理准确性。实验表明,DIP优于单一策略提示,证明了基于提示的推理中多计划归纳的有效性。
zero-shot reasoning multi-plan induction prompt engineering chain-of-thought
论文聚焦于提升零样本推理能力,提出多路径诱导方法,直接针对推理机制优化。
Small Agent Group is the Future of Digital Health
Yuqiao Meng, Luoxi Tang, Dazheng Zhang, Rafael Brens, Elvys J. Romero et al.
9/10 2026-02-08 cs.AI PDF
随着大语言模型(LLMs)在数字医疗领域的快速应用,其主要依赖于“规模优先”的理念,即认为模型规模和数据量的增加会提升临床智能。然而,实际临床需求不仅关注效果,还强调可靠性和部署成本。由于临床决策本质上是协作性的,本文挑战单一模型扩展范式,提出是否可以通过小型智能体组(Small Agent Group, SAG)实现更优的临床推理。SAG通过协作推理过程,将推理、基于证据的分析和关键审计分散到多个智能体中,从而实现集体专业知识的整合。通过广泛评估多种临床指标,包括有效性、可靠性和部署成本,结果表明SAG在有无额外优化或检索增强生成的情况下均优于单一大模型。这些发现表明,SAG所代表的协同推理可以在临床环境中替代模型参数的增长。总体而言,SAG为数字医疗提供了一种可扩展的解决方案,更好地平衡了有效性、可靠性和部署效率。
临床推理 多智能体协作 数字医疗 模型规模优化
论文核心探讨了SAG在临床推理中的协同优势,直接涉及推理能力的提升与优化。
Accelerating Social Science Research via Agentic Hypothesization and Experimentation
Jishu Sen Gupta, Harini SI, Somesh Kumar Singh, Syed Mohamad Tawseeq, Yaman Kumar Singla et al.
BITS Pilani SUNY-Buffalo Adobe IIIT-Delhi
9/10 2026-02-08 cs.AI PDF
数据驱动的社会科学研究本质上是缓慢的,依赖于观察、假设生成和实验验证的迭代循环。尽管近期的数据驱动方法有望加速这一过程,但它们在支持端到端科学发现方面仍存在不足。为弥补这一缺陷,我们引入了EXPERIGEN,一个基于贝叶斯优化启发的两阶段搜索代理框架,其中生成器提出候选假设,实验者对其进行实证评估。在多个领域中,EXPERIGEN一致发现了比先前方法多2-4倍的具有统计显著性的假设,且预测能力提高了7-17%。该框架自然扩展至复杂数据环境,包括多模态和关系型数据集。此外,假设必须新颖、实证基础扎实且可操作,以推动真正的科学进步。我们通过专家评审对机器生成的假设进行评估,收集高级教职员工的反馈。在审查的25个假设中,88%被评定为中度或高度新颖,70%被认为具有影响力并值得进一步研究,大多数表现出与研究生水平研究相当的严谨性。最后,我们进行了首个LLM生成假设的A/B测试,观察到具有统计显著性的结果(p < 1e-6)和344%的大效应量。
假设生成 实验验证 社会科学 贝叶斯优化 代理系统
论文聚焦于通过代理假设和实验加速社会科学研究,强调推理与假设生成能力,属于推理能力的核心研究。
IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery
Ivaxi Sheth, Zhijing Jin, Bryan Wilder, Dominik Janzing, Mario Fritz
9/10 2026-02-08 cs.AI PDF
在内生变量与结果之间存在混杂因素的情况下,工具变量(IVs)被用来隔离内生变量的因果效应。识别有效的工具变量需要跨学科知识、创造力和情境理解,这使得该任务非同寻常。本文探讨了大型语言模型(LLMs)是否能在此任务中提供帮助。我们采用两阶段评估框架:首先测试LLMs能否从文献中恢复已建立的工具变量,评估其复制标准推理的能力;其次评估LLMs能否识别并避免已被实证或理论否定的工具变量。基于这些结果,我们提出了IV Co-Scientist,一个用于针对特定处理-结果对提出、批评和优化工具变量的多智能体系统。我们还引入了一种统计检验方法,以在没有真实值的情况下进行一致性分析。实验结果表明,LLMs有潜力从大规模观测数据库中发现有效的工具变量。
因果推理 工具变量 多智能体系统 LLM推理
论文核心研究LLM在因果工具变量发现中的推理能力,涉及标准推理和批判性推理。
MedCoG: Maximizing LLM Inference Density in Medical Reasoning via Meta-Cognitive Regulation
Yu Zhao, Hao Guan, Yongcheng Jing, Ying Zhang, Dacheng Tao
9/10 2026-02-08 cs.AI PDF
大型语言模型(LLMs)在复杂医学推理中展现出巨大潜力,但在推理扩展定律下效果逐渐减弱。现有研究虽尝试通过增加知识类型来增强LLMs,但额外成本转化为准确性的有效性尚不明确。本文提出MedCoG,一种结合知识图谱的医学元认知代理,利用任务复杂度、熟悉度和知识密度的元认知评估动态调节程序性、情景性和事实性知识的使用。该方法旨在通过减少不必要的扩展和过滤干扰知识来提高推理效率。实验表明,MedCoG在五个医学基准数据集上实现了5.5倍的推理密度提升,验证了其有效性和效率。此外,Oracle研究表明元认知调节具有显著潜力。
医学推理 元认知调节 知识图谱 推理密度 LLM优化
论文聚焦于LLM在医学推理中的自我认知调节,直接提升推理效率与准确性,属于推理能力的核心研究。
SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
Weijiang Lv, Yaoxuan Feng, Xiaobo Xia, Jiayu Wang, Yan Jing et al.
9/10 2026-02-08 cs.CV PDF
链式推理(Chain-of-Thought)被广泛用于提升多模态大语言模型(MLLMs)的可解释性,但生成的推理轨迹的可信度仍不清楚。先前的工作主要关注感知幻觉,而对推理层面的不可信性研究较少。为隔离可信度与语言先验,我们引入SPD-Faith Bench,一个基于细粒度图像差异推理的诊断基准,强制进行显式的视觉比较。在最先进的MLLMs上的评估揭示了两种系统性失败模式:感知盲区和感知-推理解离。我们将这些失败归因于视觉注意力衰减和残差流中的表示偏移。基于此分析,我们提出SAGE,一种无需训练的视觉证据校准框架,提升了视觉路由并使推理与感知对齐。我们的结果突出了超越响应正确性之外显式评估可信度的重要性。我们的基准和代码可在https://github.com/Johanson-colab/SPD-Faith-Bench获取。
Chain-of-Thought faithfulness multimodal LLMs visual reasoning
论文聚焦于Chain-of-Thought推理的faithfulness问题,属于推理能力的核心研究。
Code
rePIRL: Learn PRM with Inverse RL for LLM Reasoning
Xian Wu, Kaijie Zhu, Ying Zhang, Lun Wang, Wenbo Guo
9/10 2026-02-08 cs.LG PDF
过程奖励在深度强化学习中被广泛用于提高训练效率、减少方差并防止奖励黑客行为。在LLM推理中,现有研究也探索了各种方法来学习有效的过程奖励模型(PRM),有或没有专家策略的帮助。然而,现有方法要么依赖于对专家策略的强假设(例如要求其奖励函数),要么存在内在限制(例如熵崩溃),导致PRM效果较弱或泛化能力有限。本文提出rePIRL,一个受逆向强化学习启发的框架,在对专家策略的假设最少的情况下学习有效的PRM。具体而言,我们设计了一个双学习过程,交替更新策略和PRM。我们的学习算法采用了定制技术以解决将传统逆向强化学习扩展到LLM时面临的挑战。理论上,我们证明所提出的框架可以统一在线和离线PRM学习方法,表明rePIRL可以在最小假设下学习PRM。在标准化数学和编码推理数据集上的实证评估展示了rePIRL相比现有方法的有效性。此外,我们展示了训练好的PRM在测试时训练、测试时扩展以及为训练困难问题提供早期信号方面的应用。最后,我们通过详细的消融研究验证了训练方案和关键设计选择。
LLM推理 过程奖励模型 逆向强化学习 奖励建模
论文聚焦于提升LLM推理能力的PRM学习,直接涉及推理过程中的奖励建模与优化。
LLMs Know More About Numbers than They Can Say
Fengting Yuchi, Li Du, Jason Eisner
9/10 2026-02-08 cs.CL PDF
尽管最先进的大型语言模型(LLMs)能够解决数学问题,但我们发现它们在混合符号的数值比较中会出现错误,例如“5.7×10²和580哪个更大?”这引发了一个根本性问题:LLMs是否真正理解这些数字的大小?我们对多个较小的开源LLMs的隐藏状态进行了探测。适当隐藏层的一个线性投影可以编码两种数字的对数幅度,使我们能够在受限合成文本上以约2.3%的相对误差恢复数字,在科学论文中则为19.06%。此外,读取一对数字后的隐藏状态编码了它们的排名,线性分类器可实现超过90%的准确率。然而,当被明确要求对同一组数字进行排序时,这些LLMs仅达到50-70%的准确率,且探针效果较差的模型表现更差。最后,我们证明在微调过程中将分类器探针的对数损失作为辅助目标,可使模型的口头准确率提高3.22%,表明改进模型的内部数量表示可以增强其数值推理能力。
数值推理 隐藏状态分析 模型微调 LLM内部表示
论文聚焦于LLM在数值推理中的表现与内部表示,直接涉及推理能力的核心问题。
Code
Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents
Jiatong Li, Changdae Oh, Hyeong Kyu Choi, Jindong Wang, Sharon Li
9/10 2026-02-08 cs.CL PDF
诱导推理已成为提升大型语言模型(LLMs)在复杂任务中表现的一种强大技术。然而,其在真实用户参与型代理场景中的有效性仍不清楚。本文对用户参与型LLM代理中显式推理的效果进行了全面研究。实验涵盖了七种模型、三个基准和两种推理实现方式,并通过定量响应分类分析和定性失败传播案例研究进行评估。与预期相反,我们发现强制推理在用户参与场景中常常适得其反,导致各种LLMs出现异常性能下降。我们的关键发现表明,推理会使代理更加‘内向’,即缩短响应并减少向用户披露信息,从而削弱代理与用户之间的信息交换,导致下游任务失败。此外,我们证明了明确提示信息披露可以可靠地提高不同模型家族的性能,表明主动透明度是优化代理的关键杠杆。总体而言,我们的研究表明,信息透明度意识是未来设计现实场景中推理代理的重要但尚未充分探索的视角。
LLM Agent Reasoning User Engagement Information Transparency
论文核心研究了强制推理对LLM代理性能的影响,直接涉及推理机制及其在用户交互场景中的表现。
Code
Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models
Ningyu Xu, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Fudan University
9/10 2026-02-08 cs.CL PDF
大型语言模型(LLMs)表现出类似人类推理的涌现行为。尽管近期研究已识别出这些模型中存在结构化的、类似人类的概念表示,但尚不清楚它们是否在功能上依赖这些表示进行推理。本文研究了LLMs在上下文概念推理过程中的内部处理机制。结果表明,在中间到后期层中出现了一个概念子空间,其表示结构在不同上下文中保持稳定。通过因果中介分析,我们证明该子空间不仅是伴随现象,而且是模型预测的核心功能部分,确立了其在推理中的因果作用。我们进一步发现,早期至中期层的注意力头通过整合上下文线索来构建和优化该子空间,随后由后期层利用以生成预测。这些发现为LLMs如何动态构建并使用结构化、潜在表示进行上下文推理提供了证据,揭示了其灵活适应的计算过程。
结构化表示 因果推理 上下文推理 LLM内部机制
论文聚焦于LLM在推理过程中结构化表示的动态构建,直接关联其推理能力。
SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents
Chen Zhang, Kuicai Dong, Dexun Li, Wenjun Li, Qu Yang et al.
9/10 2026-02-08 cs.CL PDF
近年来基于大推理模型(LRMs)的深度搜索代理在复杂问题回答中表现出色,其核心能力是通过迭代规划、行动和收集证据实现的集成推理。然而,主流方法通常仅依赖结果导向的监督训练,忽视了中间思考和行动的质量。本文提出SRR-Judge框架,用于对推理和搜索动作进行可靠的步骤级评估。该框架整合到改进的ReAct风格的评分与优化流程中,为集成推理提供细粒度指导,并支持高效的后训练标注。利用SRR标注的数据,我们采用迭代拒绝采样微调方法增强基础代理的深度搜索能力。实验证明,SRR-Judge在步骤级评估上比DeepSeek-V3.1等更大模型更可靠,其评分与最终答案正确性高度相关。此外,将策略与SRR-Judge标注的轨迹对齐可显著提升性能,在多个具有挑战性的深度搜索基准测试中平均绝对pass@1指标提升了超过10%。
search agents reasoning step-level evaluation fine-tuning deep learning
论文聚焦于增强搜索代理的推理能力,提出SRR-Judge框架用于评估和优化推理过程。
Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution
Zhenyu Wu, Yanxi Long, Jian Li, Hua Huang
9/10 2026-02-08 cs.AI PDF
程序代码作为连接视觉与逻辑的桥梁,为通过几何操作(如辅助线构造和透视变换)增强大模型的多模态推理能力提供了一种可行的监督方法。然而,当前的逆向图形方法在准确重建复杂几何细节方面面临巨大挑战,常导致关键几何约束丢失或结构失真。为解决这一瓶颈,我们提出了Geo-coder——首个基于多智能体系统的几何图像逆向编程框架。该方法创新性地将过程分解为像素级锚定的几何建模和度量驱动的代码进化:第一阶段利用视觉算子和大模型的互补优势,实现对像素坐标和视觉属性的精确捕捉;第二阶段引入合成-渲染-验证闭环,双向视觉反馈驱动代码的自我修正。大量实验表明,Geo-coder在几何重建精度和视觉一致性方面均取得显著优势。值得注意的是,通过有效保留核心几何语义,使用本方法重建的图像在多模态推理任务中表现出与原图相当的性能,充分验证了框架的鲁棒性。最后,为降低研究成本,我们在GeoCode框架上构建并开源了包含1500多个样本的Geo-coder数据集,并开源了GeocodeLM模型,为后续相关研究奠定了坚实的数据和模型基础。
几何图像 逆向代码生成 多智能体系统 多模态推理 视觉-逻辑连接
论文聚焦于通过几何图像逆向生成代码,提升模型的多模态推理能力,核心涉及逻辑与视觉的连接。
Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation
Dun Yuan, Hao Zhou, Xue Liu, Hao Chen, Yan Xin et al.
清华大学 IEEE
8/10 2026-02-19 cs.AI PDF
大型语言模型(LLMs)在多种任务中表现出强大潜力,但在电信领域因领域复杂性、不断演变的标准和专业术语而面临挑战。通用领域的LLMs可能难以在此背景下提供准确可靠的输出,导致幻觉增加并降低在电信运营中的实用性。为解决这些限制,本文提出了一种名为KG-RAG的新框架,该框架将知识图谱(KG)与检索增强生成(RAG)相结合,以增强LLMs在电信特定任务中的表现。具体而言,知识图谱提供了从电信标准和技术文档中提取的结构化领域知识表示,而RAG则实现了相关事实的动态检索,以确保模型输出的准确性。实验结果表明,KG-RAG在基准数据集上的表现优于仅使用LLM和标准RAG基线,例如KG-RAG在RAG基础上平均准确率提高了14.3%,在仅使用LLM的模型上提高了21.6%。这些结果突显了KG-RAG在复杂电信场景中生成准确、可靠和可解释输出的有效性。
知识图谱 检索增强生成 电信领域 推理能力 模型优化
论文通过知识图谱和检索增强生成提升LLM在电信领域的推理准确性,直接涉及推理能力的改进。
HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind
Nigel Doering, Rahath Malladi, Arshia Sangwan, David Danks, Tauhidur Rahman
University of California San Diego School of Computing, Information, and Data Sciences, New York University
8/10 2026-02-18 cs.LG PDF
心智理论(ToM)使AI系统能够推断代理的隐藏目标和心理状态,但现有方法主要集中在小型可理解的网格世界空间。本文提出HiVAE,一种分层变分架构,将ToM推理扩展到现实的时空领域。受人类认知中信念-欲望-意图结构的启发,我们的三层VAE层次结构在3,185节点校园导航任务中实现了显著的性能提升。然而,我们识别出一个关键限制:尽管分层结构提高了预测能力,但学习到的潜在表示缺乏对实际心理状态的显式关联。我们提出了自监督对齐策略,并希望借此征求社区对关联方法的反馈。
心智理论 变分自编码器 推理能力 潜在变量建模 AI心理状态推断
论文聚焦于心智理论(ToM)的推理能力扩展,涉及推理架构与隐变量建模。
Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training
Jonathan Lys, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Fabien Cardinaux et al.
IMT Atlantique, Lab-STICC, UMR CNRS 6285, Brest, France Sony Europe Ltd, Stuttgart Technology Center, EUREC, Germany
8/10 2026-02-16 cs.LG PDF
深度学习架构,尤其是Transformer,通常被视为由多个层组成的结构。这些层实际上常常是两个贡献的总和:一个残差路径,它复制Transformer块的输入和输出。因此,内部表示(即这些块的输入)可以被解释为传播的潜在表示的迭代优化。在此基础上,许多研究认为内部空间在各层之间是共享的,意味着可以在早期阶段解码标记。机制性可解释性甚至进一步推测某些层充当优化层。沿着这一思路,我们提出了推理时的内循环方法,通过重复应用选定的块范围来延长预训练语言模型的优化过程。在多个基准测试中,内循环带来了适度但一致的准确性提升。对生成的潜在轨迹的分析表明状态演化更加稳定,并且语义优化持续进行。总体而言,我们的结果表明,通过简单的测试时循环可以在冻结的预训练模型中获得额外的优化效果。
transformer inner-loop inference latent representation pretrained models semantic refinement
论文探讨了Transformer模型内部表示的迭代优化过程,与推理能力中的思维链和语义精炼密切相关。
LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
高通公司
8/10 2026-02-16 eess.AS PDF
随着工业和消费场景中长时音频数据的增多,如何高效地进行多小时录音的自然语言问答成为挑战。本文提出LongAudio-RAG(LA-RAG)框架,该框架通过检索时间戳标记的声学事件检测结果来增强大语言模型(LLM)的输出,而非直接使用原始音频。将多小时音频流转换为结构化的事件记录并存储于SQL数据库中,在推理阶段系统解析自然语言的时间参考、分类意图、检索相关事件,并基于这些约束证据生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在混合边缘-云环境中的实用性,其中音频定位模型在设备端运行,而LLM则部署在云端GPU服务器上。实验表明,基于事件的结构化检索显著提升了与传统RAG或文本到SQL方法相比的准确率。
audio question answering event retrieval LLM RAG edge-cloud architecture
论文聚焦于LLM在长音频问答中的推理能力,通过事件检索提升准确性,属于推理能力的核心研究。
GRAIL: Goal Recognition Alignment through Imitation Learning
Osher Elhadad, Felipe Meneguzzi, Reuth Mirsky
以色列巴伊兰大学计算机科学系 英国阿伯丁大学计算机科学系 美国马萨诸塞州梅德福市塔夫茨大学计算机科学系
8/10 2026-02-15 cs.AI PDF
从智能体的行为中理解其目标是使AI系统与人类意图对齐的基础。现有目标识别方法通常依赖于最优目标导向策略表示,这可能与执行者的真实行为存在差异,从而阻碍准确识别其目标。为解决这一问题,本文提出基于模仿学习的目标识别对齐方法(GRAIL),该方法利用模仿学习和逆强化学习,直接从(可能是次优的)演示轨迹中学习每个候选目标对应的一个目标导向策略。通过在单次前向传递中使用每个学习到的目标导向策略对观察到的部分轨迹进行评分,GRAIL保留了经典目标识别方法的一次性推理能力,同时利用能够捕捉次优和系统性偏差行为的学习策略。在评估的多个领域中,GRAIL在系统性偏差最优行为下F1分数提升超过0.5,在次优行为下获得约0.1-0.3的增益,在噪声最优轨迹下实现高达0.4的改进,并在完全最优设置中仍具有竞争力。这项工作为在不确定环境中解释智能体目标提供了可扩展且鲁棒的模型。
目标识别 模仿学习 逆强化学习 行为对齐 推理能力
论文聚焦于通过模仿学习识别智能体目标,涉及推理与行为对齐,属于推理能力的核心研究。
Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness
Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini
The University of Queensland, Brisbane, Australia University of Udine, Udine, Italy
8/10 2026-02-15 cs.CL PDF
大型语言模型(LLMs)在各种任务中表现出强大的推理能力,但其在扩展上下文中的表现仍不一致。尽管先前的研究强调了问答任务中中段上下文退化现象,本研究则探讨了基于LLM的事实核查中上下文的影响。使用三个数据集(HOVER、FEVEROUS和ClimateFEVER)以及五个不同参数规模(7B、32B和70B)和模型家族(Llama-3.1、Qwen2.5和Qwen3)的开源模型,评估了参数化事实知识及证据位置对不同上下文长度的影响。我们发现,LLMs展现出非平凡的参数化事实知识,并且随着上下文长度增加,其验证准确性通常下降。与之前的研究结果类似,上下文中相关证据的位置起着关键作用,当相关证据出现在提示的开头或结尾时,准确性较高,而位于中间时则较低。这些结果突显了提示结构在检索增强型事实核查系统中的重要性。
fact-checking context-length evidence-placement LLM-reasoning
论文研究了上下文对LLM事实核查效果的影响,涉及推理能力中的逻辑与事实验证。
Differentiable Rule Induction from Raw Sequence Inputs
Kun Gao, Katsumi Inoue, Yongzhi Cao, Hanpin Wang, Feng Yang
北京大学高可信计算研究所 北京大学信息学院
8/10 2026-02-14 cs.AI PDF
基于规则的学习模型因其透明结构被广泛应用于高度可解释的场景。归纳逻辑编程(ILP)是一种机器学习形式,能够从事实中归纳出规则并保持可解释性。可微分ILP模型通过利用神经网络增强了这一过程,提高了鲁棒性和可扩展性。然而,大多数可微分ILP方法依赖于符号数据集,在直接从原始数据学习时面临挑战,尤其是显式标签泄露问题:即无法在没有输入特征标签显式监督的情况下将连续输入映射到符号变量。本文通过将自监督可微分聚类模型与一种新颖的可微分ILP模型相结合,解决了这一问题,实现了无需显式标签泄露即可从原始数据中学习规则。所学规则能够通过其特征有效描述原始数据。我们展示了该方法能够直观且精确地从时间序列和图像数据中学习通用规则。
rule learning differentiable ILP self-supervised learning raw data processing
论文聚焦于基于规则的学习模型,强调推理能力与逻辑归纳,属于推理能力研究的核心内容。
ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter
Yixin Chen, Ying Xiong, Shangyu Wu, Xiangrui Ke, Nan Guan et al.
City University of Hong Kong MBZUAI University of Waterloo
8/10 2026-02-13 cs.CL PDF
检索增强生成(RAG)已成为在知识密集型问答任务中结合外部证据与大语言模型(LLMs)的主要范式。现有方法在融合检索样本时存在局限,尤其当检索候选数量增加时,容易引入无关或冗余内容并提高推理成本。为此,本文提出ReFilter,一种基于潜在特征的新型融合框架,实现令牌级过滤与融合。该框架包含三个核心组件:用于编码上下文特征的上下文编码器、用于加权每个令牌的门控滤波器,以及将加权令牌特征整合到LLM隐藏状态中的令牌融合模块。实验结果表明,在四个通用领域问答基准测试中,ReFilter在域内适配和域外迁移下均取得最佳平均性能,并且在五个生物医学问答基准测试中无需领域微调即可达到70.01%的平均准确率。
检索增强生成 信息融合 门控机制 推理优化
论文聚焦于增强检索增强生成(RAG)的鲁棒性,涉及推理过程中信息融合与过滤机制,直接提升LLM在知识密集型任务中的推理能力。
$\mathcal{X}$-KD: General Experiential Knowledge Distillation for Large Language Models
Yuang Cai, Yuyu Yuan
未知单位
8/10 2026-02-13 cs.CL PDF
随着大语言模型(LLMs)规模和复杂性的增加,知识蒸馏(KD)变得愈发重要。现有方法主要关注模仿教师模型的行为,却忽视了塑造教师知识的原始学习环境。受经验学习理论和逆强化学习启发,本文提出了一种名为X-KD的新型通用框架,使学生模型能够在教师的原始学习环境中进行学习。X-KD采用近似变分奖励模仿学习(AVRIL)框架,联合建模教师的原始奖励函数并执行策略蒸馏,鼓励学生策略与原始奖励函数之间的一致性。实验结果表明,X-KD在抽象摘要、机器翻译和算术推理任务上优于通用KD和MiniLLM基线方法,并在性能-多样性权衡和数据效率方面表现更优。
知识蒸馏 逆强化学习 推理能力 奖励函数建模
论文提出了一种新的知识蒸馏方法,强调推理过程与奖励函数的一致性,直接关联到LLM的推理能力提升。
The Alignment Bottleneck in Decomposition-Based Claim Verification
Mahmud Elahi Akhter, Federico Ruggeri, Iman Munire Bilal, Rob Procter, Maria Liakata
英国伦敦国王学院 意大利博洛尼亚大学
8/10 2026-02-11 cs.CL PDF
结构化主张分解常被提议用于验证复杂、多方面的主张,但实证结果不一致。我们认为这些不一致性源于两个被忽视的瓶颈:证据对齐和子主张错误分布。为更好地理解这些因素,我们引入了一个包含现实世界复杂主张的新数据集,具有时间限定的证据和人工标注的子主张证据范围。我们在两种证据对齐设置下评估分解效果:子主张对齐证据(SAE)和重复主张级证据(SRE)。结果显示,只有在证据粒度细且严格对齐时,分解才能显著提升性能。相比之下,依赖重复主张级证据的标准设置无法提升性能,甚至在多个数据集和领域中表现下降(如PHEMEPlus、MMM-Fact、COVID-Fact)。此外,我们发现,在存在噪声子主张标签的情况下,错误类型决定了下游鲁棒性。我们发现保守的“回避”策略相比激进但错误的预测能显著减少错误传播。这些发现表明,未来的主张分解框架必须优先考虑精确的证据合成,并校准子主张验证模型的标签偏差。
主张验证 证据对齐 推理能力 子主张错误分析
论文聚焦于基于分解的主张验证中的推理瓶颈,涉及证据对齐和子主张错误分析,属于推理能力研究。
Contrastive explanations of BDI agents
Michael Winikoff
Victoria University of Wellington, Wellington, New Zealand
8/10 2026-02-10 cs.AI PDF
自主系统提供解释的能力对于支持透明性和建立适当信任至关重要。先前研究定义了一种机制,使信念-欲望-意图(BDI)智能体能够回答“你为什么执行动作X?”的问题。然而,我们通常会提出对比性问题(“你为什么选择X而不是F?”)。因此,本文扩展了之前的工作,使其能够回答此类对比性问题。计算评估表明,使用对比性问题可以显著减少解释长度。通过人类受试者评估,研究了对比性答案是否更受欢迎,以及它们在支持信任发展和透明性方面的效果。研究发现,对比性答案在一定程度上更受青睐,并可能提高信任度、感知理解和对系统正确性的信心。此外,还评估了提供解释的整体益处,结果出乎意料,没有明确的益处,在某些情况下甚至发现提供完整解释比不提供任何解释更差。
BDI智能体 对比性解释 信任建模 人机交互 解释性AI
论文聚焦于BDI智能体的解释能力,特别是对比性问题的推理与回答机制,直接涉及推理能力的研究。
Biases in the Blind Spot: Detecting What LLMs Fail to Mention
Iván Arcuschin, David Chanin, Adrià Garriga-Alonso, Oana-Maria Camburu
University of Buenos Aires University College London Independent Imperial College London
8/10 2026-02-10 cs.LG PDF
大型语言模型(LLMs)通常会提供看似合理的思维链(CoT)推理轨迹,但可能隐藏内部偏见。我们称这些为*未言明的偏见*。通过模型陈述的推理进行监控是不可靠的,而现有的偏见评估通常需要预定义类别和手工构建的数据集。在本研究中,我们引入了一种全自动的黑盒流程,用于检测任务特定的未言明偏见。给定一个任务数据集,该流程使用LLM自动评分器生成候选偏见概念,然后通过生成正负变体并在逐步增加的输入样本上测试每个概念,并应用统计技术进行多重检验和提前停止。如果某个概念在模型的CoT中未被引用,但导致显著的性能差异,则标记为未言明偏见。我们在三个决策任务(招聘、贷款审批和大学录取)上的七种LLM上评估了该流程。我们的方法自动发现了这些模型中之前未知的偏见(如西班牙语流利度、英语熟练度、写作正式性)。在同一运行中,该流程还验证了先前工作中手动识别的偏见(性别、种族、宗教、民族)。总体而言,我们提出的方法为自动任务特定偏见发现提供了实用且可扩展的路径。
LLM 偏见检测 推理分析 自动化评估
论文聚焦于LLM推理过程中的隐性偏见,与推理能力密切相关。
AnalyticsGPT: An LLM Workflow for Scientometric Question Answering
Khang Ly, Georgios Cheirmpos, Adrian Raudaschl, Christopher James, Seyed Amin Tabatabaei
未注明单位 Elsevier B.V.
8/10 2026-02-10 cs.CL PDF
本文介绍了AnalyticsGPT,这是一种基于大语言模型(LLM)的直观且高效的科学计量问答工作流。该任务属于元科学问题的子类别,涉及对科学本身的分析。与传统的基于论文的科学问答相比,该任务在规划阶段面临独特挑战,如学术实体的命名实体识别以及涉及科学计量指标(如影响因子)的多方面数据检索。除了处理传统自然语言处理任务的能力外,LLMs在更复杂的任务分解、规划和推理中也展现出巨大潜力。本文探索了LLMs在科学计量问答中的应用,并描述了一个端到端系统,实现了结合检索增强生成和智能体概念的顺序工作流。同时,本文还解决了如何有效将数据综合为可展示的高层分析的问题。作为检索增强生成的数据库,我们使用了一个专有的研究绩效评估平台。在评估过程中,我们咨询了经验丰富的主题专家,并利用LLMs作为评判者。通过这些方法,我们提供了关于LLMs在这一小众下游任务中有效性的宝贵见解。
科学计量 LLM推理 检索增强生成 任务规划 数据分析
论文重点探讨了LLM在科学计量问题回答中的推理能力,包括任务分解、规划和数据合成。
Code
Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization
Matteo Pannacci, Andrea Fanti, Elena Umili, Roberto Capobianco
Sapienza University of Rome, Italy
8/10 2026-02-10 cs.LG PDF
本文研究了如何训练一个强化学习代理以遵循用线性时序逻辑(LTL)表示的多个时间扩展指令,并在子符号环境中实现零样本泛化。以往的多任务工作通常依赖于原始观察与公式中符号之间的映射知识。本文通过联合训练一个多任务策略和一个符号接地器,消除了这一不现实的假设。符号接地器仅从原始观察和稀疏奖励中通过神经奖励机器以半监督方式训练。实验表明,在基于视觉的环境中,该方法的表现可与使用真实符号接地的方法相媲美,并显著优于当前最先进的子符号环境方法。
强化学习 符号接地 线性时序逻辑 零样本泛化
论文聚焦于强化学习代理在非符号环境中对线性时序逻辑任务的零样本泛化,涉及推理与逻辑表达。
Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts
Shweta Parihar, Lu Cheng
芝加哥大学
8/10 2026-02-10 cs.CL PDF
大型语言模型(LLMs)中存在的社会偏见引发了重大的公平性问题。检索增强生成(RAG)架构通过引入外部知识源来增强LLM的生成能力,但仍面临相同的偏见挑战。本文旨在评估和理解RAG系统中的社会偏见影响。通过在多个检索语料库、LLM和偏见评估数据集上进行广泛实验,涵盖了13种不同的偏见类型,我们意外地观察到RAG系统的偏见有所减少。这表明引入外部上下文有助于抵消刻板印象驱动的预测,可能通过多样化模型输出的上下文基础来提高公平性。为了更好地理解这一现象,我们通过将思维链(CoT)提示整合到RAG中,并评估模型的CoT可信度,进一步探索了模型的推理过程。实验结果表明,随着从检索文档中引入更多上下文信息,模型的偏见倾向会在刻板印象和反刻板印象响应之间变化。有趣的是,尽管CoT提高了准确性,但与RAG的偏见减少趋势相反,它反而增加了整体偏见,凸显了需要开发能够缓解这种权衡的偏见感知推理框架。
社会偏见 RAG系统 Chain-of-Thought 公平性 推理框架
论文重点研究了RAG系统中的推理过程及其对社会偏见的影响,涉及Chain-of-Thought(CoT)提示和模型推理机制。
Learning to Judge: LLMs Designing and Applying Evaluation Rubrics
Clemencia Siro, Pourya Aliannejadi, Mohammad Aliannejadi
8/10 2026-02-09 cs.CL PDF
大型语言模型(LLMs)越来越多地被用作自然语言生成的评估者,通过应用人类定义的评分标准来评估系统输出。然而,人类制定的标准通常是静态的,且与模型内部对语言质量的表示不一致。本文引入GER-Eval(用于评估的生成评估标准),研究LLMs是否能够自行设计并应用评估标准。我们评估了LLM定义的标准在语义连贯性、评分可靠性和与人类标准的一致性方面的表现。结果表明,LLMs能够可靠地生成可解释且任务感知的评估维度,并在模型内部保持一致性,但在事实性和知识密集型场景中其评分可靠性下降。闭源模型如GPT-4o在跨模型泛化和一致性方面优于开源模型如Llama。本研究将评估视为LLMs的一种学习语言能力,在模型内部具有一致性但跨模型存在碎片化,呼吁开发新的方法,联合建模人类和LLM的评估语言以提高可靠性和可解释性。
评估标准 LLM推理 语言质量评估 模型泛化
论文探讨LLM设计和应用评估标准的能力,涉及推理与判断机制,属于推理能力的核心研究。
Document Reconstruction Unlocks Scalable Long-Context RLVR
Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin et al.
Infinity Lab, MiroMind AI SUTD
8/10 2026-02-09 cs.CL PDF
可验证奖励强化学习(RLVR)已成为增强大语言模型(LLMs)长上下文能力的重要范式。然而,它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准,这成本高昂且耗时。本文研究无监督方法以增强LLM的长上下文能力,无需大量人工标注或教师模型监督。具体而言,我们首先在长文档中替换几个段落为特殊占位符,并通过强化学习训练LLM从候选选项中正确识别并排序缺失段落以重构文档。该训练范式使模型能够捕捉全局叙事连贯性,显著提升长上下文性能。我们在两个广泛使用的基准RULER和LongBench~v2上验证了方法的有效性,在RULER上取得明显增益,并在无需手动构建的长上下文问答数据的情况下实现合理改进。此外,我们进行了广泛的消融实验,分析奖励设计、数据策展策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布代码、数据和模型。
长上下文 强化学习 文档重构 无监督学习 推理能力
论文通过文档重构提升LLM的长上下文推理能力,核心围绕推理机制优化。
Code
CoRect: Context-Aware Logit Contrast for Hidden State Rectification to Resolve Knowledge Conflicts
Xuhua Ma, Richong Zhang, Zhijie Nie
北京工业大学
8/10 2026-02-09 cs.CL PDF
检索增强生成(RAG)在处理知识冲突时常常面临挑战,即模型内部参数化知识会覆盖检索到的证据,导致输出不忠实。现有方法通常依赖于表面解码调整或需要真实标签的权重编辑,效果有限。通过逐层分析,本文将这一失败归因于参数抑制现象:在深层中,某些前馈网络层会用记忆先验覆盖上下文敏感表示。为此,本文提出CoRect(基于上下文感知的对数对比用于隐藏状态修正)。通过对比上下文化和非上下文化的前向传递中的对数,CoRect能够在无需真实标签的情况下识别出具有高参数偏置的层,并修正隐藏状态以保留基于证据的信息。在问答(QA)和摘要任务的基准测试中,CoRect相比强基线显著提升了忠实度并减少了幻觉。
知识冲突 检索增强生成 隐藏状态修正 推理能力 模型忠实度
论文聚焦于解决知识冲突问题,涉及模型推理过程中内部知识与检索信息的矛盾,属于推理能力的关键部分。
Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
Yufei Wang, Haixu Liu, Tianxiang Xu, Chuancheng Shi, Hongsheng Xing
8/10 2026-02-08 cs.CV PDF
为解决视频中“隐藏情绪”的自动识别问题,本文提出了一种多模态弱监督框架,并在iMiGUE网球采访数据集上取得了最先进的结果。首先,YOLO 11x逐帧检测并裁剪人物肖像,DINOv2-Base从裁剪区域提取视觉特征。随后,通过集成Chain-of-Thought和Reflection提示(CoT + Reflection),Gemini 2.5 Pro自动生成伪标签和推理文本,作为下游模型的弱监督信号。接着,OpenPose生成137维关键点序列,并增强帧间偏移特征;通常的图神经网络主干被简化为MLP以高效建模三个关键点流的时空关系。超长序列Transformer独立编码图像和关键点序列,其表示与BERT编码的采访转录文本拼接。每种模态首先单独预训练,然后联合微调,伪标记样本合并到训练集中以进一步提升性能。实验表明,尽管存在严重的类别不平衡,所提方法将准确率从先前工作的低于0.6提升至超过0.69,建立了新的公共基准。研究还验证了“MLP化”的关键点主干在此任务中可以匹配甚至超越基于GCN的方法。
弱监督学习 多模态融合 情绪识别 推理提示 伪标签生成
论文使用Chain-of-Thought和Reflection提示生成伪标签,涉及推理能力的增强。
Creating a digital poet
Vered Tohar, Tsahi Hayat, Amir Leshem
巴伊兰大学犹太文学系,拉马特甘,以色列 赖希曼大学传播学院,拉马特甘,以色列 巴伊兰大学工程学院,拉马特甘,以色列
7/10 2026-02-18 cs.AI PDF
机器能够写出优秀的诗歌吗?这一问题引发了关于艺术本质与价值的根本性讨论。本文报告了一项为期七个月的诗歌工作坊,通过迭代的上下文专家反馈,未对模型进行再训练的情况下,将大型语言模型塑造成一个数字诗人。在多次会话中,该模型发展出独特的风格和连贯的作品集,并通过定量和定性分析加以支持,还创造了笔名和作者形象。在一项盲测作者归属测试中,50名人文学生和毕业生(每组包含三首AI诗歌和三首知名诗人作品)的判断结果接近随机:人类诗歌被标记为人类的占比为54%,AI诗歌为52%。工作坊结束后,一家商业出版社发布了由该模型创作的诗集。这些结果表明,工作坊式的提示方法可以支持长期的创造性塑造,并重新引发关于创造力和作者身份的讨论。
创意生成 自然语言处理 人工智能艺术 LLM应用
论文探讨了LLM在诗歌创作中的推理与创造性表现,涉及其风格塑造和长期创意生成。
Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents
Doron Shavit
Silverfort
7/10 2026-02-18 cs.CR PDF
越狱提示是对大型语言模型(LLMs)的实际且不断演变的威胁,尤其是在执行工具操作的代理系统中。许多攻击利用了长上下文隐藏、语义伪装和轻量级混淆技术来规避单次分类防护。本文提出RLM-JB,一个基于递归语言模型(RLMs)的端到端越狱检测框架,其中根模型协调一个有限分析程序,对输入进行转换,并在覆盖段落上查询工作模型,将证据聚合为可审计的决策。RLM-JB将检测视为一个过程而非一次性分类任务:它对可疑输入进行标准化和去混淆,分块文本以减少上下文稀释并确保覆盖率,执行并行分块筛查,并组合跨分块信号以恢复分割负载攻击。在AutoDAN风格的对抗性输入上,RLM-JB在三个LLM后端(ASR/Recall 92.5-98.0%)上实现了高检测效果,同时保持了非常高的精确度(98.99-100%)和低误报率(0.0-2.0%),突显了随着筛选后端变化而出现的实用敏感性-特异性权衡。
越狱检测 递归语言模型 安全防护 输入分析
论文涉及LLM的推理能力,通过递归语言模型进行越狱检测,强调对输入内容的分析与逻辑判断。
Decision Making under Imperfect Recall: Algorithms and Benchmarks
Emanuel Tewolde, Brian Hu Zhang, Ioannis Anagnostides, Tuomas Sandholm, Vincent Conitzer
Computer Science Dept., Carnegie Mellon University, Pittsburgh, USA Foundations of Cooperative AI Lab (FCAI), Strategy Robot, Inc.; Strategic Machine, Inc.; Optimized Markets, Inc.
7/10 2026-02-16 cs.GT PDF
在博弈论中,不完全记忆决策问题建模了代理遗忘先前信息的情况,包括如“健忘司机”游戏和有限通信的团队游戏。本文首次引入了一个用于不完全记忆决策问题的基准测试套件,涵盖了隐私和AI安全等应用场景。通过61个问题实例,评估了不同算法在寻找最优策略中的表现。特别地,提出了一类无参数的遗憾匹配(RM)算法,用于非线性约束优化。实验表明,RM算法显著优于常用的梯度下降方法,为大规模约束优化提供了新思路。
不完全记忆 决策算法 优化方法 AI安全 博弈论
论文研究了不完全记忆下的决策问题,涉及推理和优化算法,与推理能力相关。
AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang
伊利诺伊大学厄巴纳-香槟分校
7/10 2026-02-12 cs.IR PDF
检索增强生成(RAG)已被广泛用于帮助大型语言模型(LLMs)处理涉及长文档的任务。然而,现有的检索模型并未专门设计用于长文档检索,无法解决长文档检索中的几个关键挑战,包括上下文感知、因果依赖性和检索范围。在本文中,我们提出了AttentionRetriever,一种新的长文档检索模型,该模型利用注意力机制和基于实体的检索方法,为长文档构建上下文感知的嵌入并确定检索范围。通过大量实验,我们发现AttentionRetriever在长文档检索数据集上的表现显著优于现有检索模型,同时保持了与密集检索模型相当的效率。
长文档检索 注意力机制 上下文感知 RAG
论文关注长文档检索中的上下文感知和推理能力,与LLM的推理机制相关。
Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs
Yuming Yan, Shuo Yang, Kai Tang, Sihong Chen, Yang Zhang et al.
香港大学
7/10 2026-02-11 cs.CL PDF
视觉-语言模型(VLMs)展现出卓越的通用能力,但在医学影像或几何问题解决等专业领域表现不足。监督微调(SFT)虽能提升目标领域的性能,但常导致灾难性遗忘,限制其泛化能力。持续预训练对扩展大语言模型(LLMs)的知识有效,但因计算成本高且开源模型缺乏预训练数据,难以应用于VLMs。因此需要高效的后训练适应方法。基于强化学习的方法如组相对策略优化(GRPO)在保留通用能力方面表现出潜力,但在初始缺乏领域知识时易出现优化崩溃。为此,本文提出强化课程预对齐(RCPA),一种新的后训练范式,引入课程感知的渐进调节机制。在早期阶段,RCPA通过部分输出约束安全地使模型接触新领域概念;随着模型对领域的熟悉度提高,训练逐渐过渡到完整的生成优化,以细化响应并使其符合领域特定偏好。这种分阶段适应方法在获取领域知识与保持通用多模态能力之间取得平衡。大量实验验证了RCPA在专业领域和通用基准上的有效性,为构建高性能、领域自适应的VLMs提供了实用路径。
视觉-语言模型 领域自适应 强化学习 课程学习 模型微调
论文探讨了VLM在特定领域适应中的推理能力提升,涉及知识获取与保持的平衡。
With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots
Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt
慕尼黑大学语言与语言学系 (Linguistics and Language Processing, LMU Munich) 慕尼黑大学计算机科学系 (Computer Science, LMU Munich)
7/10 2026-02-10 cs.IR PDF
可靠的检索增强生成(RAG)系统依赖于检索器找到相关信息的能力。本文表明,用于RAG系统的神经检索器存在盲点,即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致这些盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分(RPS),我们展示了标准检索器(如CONTRIEVER、REASONIR)的盲点风险可在索引前通过实体嵌入几何预测,从而避免昂贵的检索评估。为解决这些盲点,我们引入ARGUS,一个通过知识库(KB)和维基百科首段进行定向文档增强以提高高风险(低RPS)实体可检索性的流程。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明,ARGUS在所有评估检索器上均取得一致改进(平均提升nDCG@5 +3.4和nDCG@10 +4.5),在具有挑战性的子集上提升更为显著。这些结果表明,预先修复盲点对于构建稳健可信的RAG系统至关重要。
检索增强生成 不确定性评分 实体嵌入 文档增强 RAG系统优化
论文探讨了检索增强生成系统中的盲点问题,涉及推理过程中信息检索的可靠性与准确性。
Code
Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA
Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann
德国汉堡大学计算机与数据科学中心(HCDS)
7/10 2026-02-10 cs.CL PDF
随着对话问答系统对检索增强生成(RAG)方法的依赖增加,本文针对多轮对话场景下的RAG方法进行了系统性比较。现有研究大多局限于单轮设置,而多轮对话中对话历史、指代和用户意图的变化显著增加了检索难度。本文在八个不同领域的对话问答数据集上,对基础和高级RAG方法进行了全面实证分析,评估了检索质量和答案生成效果,并分析了性能随对话轮次的变化趋势。结果表明,稳健且简单的重排序、混合BM25和HyDE等方法在多轮对话中表现优于基础RAG方法,而一些高级技术未能带来性能提升,甚至低于无RAG基线。此外,数据集特征和对话长度显著影响检索效果,说明没有一种RAG策略能在所有场景中占优。总体而言,有效的对话RAG更依赖于检索策略与数据集结构的匹配,而非方法复杂度。
RAG 对话问答 多轮对话 检索增强生成 模型评估
论文探讨了RAG方法在多轮对话问答中的表现,涉及推理过程中的检索与生成质量评估。
Code
排序:
每页显示:
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang et al.
明尼苏达大学 思科研究 德克萨斯农工大学
10/10 2026-02-18 cs.LG PDF
训练大型语言模型(LLMs)作为交互式代理以进行多轮决策仍然具有挑战性,特别是在具有稀疏和延迟奖励的长期任务中,代理必须执行一系列动作后才能获得有意义的反馈。大多数现有的强化学习(RL)方法将LLM代理建模为在单一时间尺度上运行的扁平策略,每轮选择一个动作。在稀疏奖励环境下,这种扁平策略需要在整个轨迹上传播信用,而没有显式的时序抽象,这通常导致优化不稳定和信用分配效率低下。我们提出了HiPER,一种新颖的分层计划-执行RL框架,明确地将高层规划与低层执行分离。HiPER将策略分解为提出子目标的高层规划器和通过多个动作步骤执行这些子目标的低层执行器。为了与这一结构对齐,我们引入了一种关键技术——分层优势估计(HAE),它在规划和执行层面仔细分配信用。通过聚合每个子目标执行的回报并协调两个层级的更新,HAE提供了一个无偏梯度估计器,并且相比扁平化广义优势估计,可证明其方差更小。实证研究表明,HiPER在具有挑战性的交互基准测试中表现出色,在ALFWorld上达到97.4%的成功率,在WebShop上达到83.3%(使用Qwen2.5-7B-Instruct,分别比最佳先前方法提高6.6%和8.3%),尤其在需要多个依赖子任务的长期任务中表现突出。这些结果突显了显式分层分解对于可扩展的多轮LLM代理强化学习训练的重要性。
强化学习 分层规划 信用分配 LLM代理 多步任务
论文核心研究了基于分层强化学习的规划与执行框架,直接涉及任务分解和多步计划生成。
Code
Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
Weiming Zhang, Jihong Wang, Jiamu Zhou, Qingyao Li, Xinbei Ma et al.
上海交通大学 OPPO研究院
10/10 2026-02-15 cs.AI PDF
大型语言模型(LLMs)已使自主代理能够处理复杂的网页导航任务。尽管近期研究通过树搜索增强长期推理能力,但在网页导航中应用这些算法面临两个关键挑战:有效路径稀疏导致探索效率低下,以及噪声上下文削弱了准确的状态感知。为了解决这些问题,我们引入了Plan-MCTS框架,通过将探索转移到语义计划空间来重构网页导航。该框架通过将战略规划与执行基础解耦,将稀疏的动作空间转换为密集的计划树以实现高效探索,并将噪声上下文提炼为抽象语义历史以提高状态感知精度。为了确保效率和鲁棒性,Plan-MCTS引入了双门控奖励机制,严格验证物理可执行性和战略一致性,并采用结构优化方法对失败子计划进行策略内修复。在WebArena上的大量实验表明,Plan-MCTS实现了最先进的性能,在任务有效性和搜索效率方面均优于现有方法。
web navigation plan exploration MCTS semantic planning autonomous agents
论文核心围绕任务规划展开,提出Plan-MCTS框架用于提升网络导航中的计划探索与执行效率。
Symbolic Pattern Temporal Numeric Planning with Intermediate Conditions and Effects
Matteo Cardellini, Enrico Giunchiglia
DIBRIS, Università di Genova, Genova, Italy
10/10 2026-02-10 cs.AI PDF
最近提出了一种符号模式规划(SPP)方法,用于数值规划,其中模式(即动作的有限序列)建议了动作之间的因果顺序。该模式随后被编码为一个SMT公式,其模型对应有效计划。如果模式的建议不准确且无法找到有效计划,则扩展该模式,直到其包含有效计划中的动作因果顺序,使该方法完整。本文将SPP方法扩展到具有中间条件和效果(ICEs)片段的时间规划中,其中(i)动作是持续性的(因此可以在时间上重叠),并且其条件/效果可以在动作执行过程中的任何时间检查/应用,(ii)可以指定在计划执行过程中特定时间必须检查/应用的计划条件/效果。实验结果表明,我们的SPP规划器Patty在大多数无ICEs的时间域中优于文献中的所有其他规划器,在有ICEs的文献域中与最先进的搜索规划器表现相当,并在基于现实应用的新域中优于同一规划器。
符号规划 时间规划 中间条件与效果 SMT编码 规划器设计
论文聚焦于符号模式规划的扩展,涉及时间规划与中间条件和效果,属于规划能力的核心研究。
Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI
Feiyu Wu, Xu Zheng, Yue Qu, Zhuocheng Wang, Zicheng Feng et al.
10/10 2026-02-09 cs.AI PDF
大型语言模型(LLMs)在具身AI中展现出作为规划器的潜力,但其随机性缺乏形式化推理,无法提供严格的物理部署安全性保证。当前方法通常依赖不可靠的LLMs进行安全检查或直接拒绝不安全计划而未提供修复方案。本文提出可验证迭代优化框架(VIRF),一种神经符号混合架构,将安全机制从被动守门转向主动协作。核心贡献是引入导师-学徒对话机制,其中基于形式化安全本体的确定性逻辑导师为LLM规划器提供因果和教学反馈,实现智能计划修复而非简单规避。同时提出可扩展的知识获取流程,从现实文档中合成安全知识库,修正现有基准的盲点。在具有挑战性的家庭安全任务中,VIRF实现了0%的危险动作率(HAR)和77.3%的目标条件率(GCR),显著优于所有基线方法,且效率高,平均仅需1.1次修正迭代。
planning embodied AI neuro-symbolic safety verification iterative refinement
论文核心围绕规划能力展开,提出了一种可验证的迭代优化框架用于提升具身AI的安全性与规划质量。
TodoEvolve: Learning to Architect Agent Planning Systems
Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang et al.
10/10 2026-02-08 cs.CL PDF
规划已成为当代智能体系统在处理复杂、长期任务中的核心能力,但现有方法主要依赖于固定的手工规划结构,缺乏对开放性问题结构多样性的适应性。为解决这一限制,本文引入TodoEvolve,一种元规划范式,能够自主合成并动态修订任务特定的规划架构。具体而言,首先构建PlanFactory,一个模块化的设计空间,通过统一代码库标准化多种规划范式,涵盖拓扑、初始化、适应和导航,从而为异构规划模式提供通用接口。利用PlanFactory,收集高质量的规划轨迹,并通过Impedance-Guided Preference Optimization(IGPO)训练Todo-14B,该多目标强化学习目标鼓励生成在任意任务和智能体主干上均具有高性能、稳定性及高效性的规划系统。实证评估表明,TodoEvolve在五个智能体基准测试中始终优于精心设计的规划模块,同时保持较低的API成本和运行开销。
agent planning meta-planning task-specific architecture reinforcement learning
论文核心围绕Agent的规划系统设计与进化,提出自主合成和动态调整任务特定规划架构的方法。
KLong: Training LLM Agent for Extremely Long-horizon Tasks
Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi
NUS MIT Independent Researcher
9/10 2026-02-19 cs.AI PDF
本文介绍了KLong,一个开源的LLM代理,专门用于解决超长时域任务。其核心思想是首先通过轨迹分割监督微调(SFT)冷启动模型,然后通过渐进式强化学习(RL)进行扩展训练。具体而言,首先使用全面的SFT方案激活基础模型的基本代理能力。随后引入Research-Factory,一个自动化流程,通过收集研究论文和构建评估标准生成高质量的训练数据。利用该流程,我们构建了数千条从Claude 4.5 Sonnet(Thinking)中提炼出的超长时域轨迹。为训练这些超长轨迹,我们提出了一种新的轨迹分割SFT方法,保留早期上下文,逐步截断后期上下文,并保持子轨迹之间的重叠。此外,为了进一步提升超长时域任务的解决能力,我们提出了一种新颖的渐进式RL方法,将训练分为多个阶段,逐步延长超时时间。实验表明,KLong在PaperBench等基准测试中表现出色,并且性能提升可推广到其他编程基准如SWE-bench Verified和MLE-bench。
long-horizon planning trajectory splitting progressive RL agent training
论文聚焦于训练LLM代理解决超长时域任务,重点在于任务规划与多阶段训练方法。
Code
IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents
Seoyoung Lee, Seobin Yoon, Seongbeen Lee, Yoojung Chun, Dayoung Park et al.
首尔大学计算机科学与工程系
9/10 2026-02-19 cs.AI PDF
计算机使用代理在噪声感知、多窗口上下文和动态环境状态中执行长期任务。现有方法如基于强化学习的规划器或轨迹检索,往往偏离用户意图并重复解决常规子问题,导致错误累积和效率低下。本文提出IntentCUA,一种多代理计算机使用框架,通过意图对齐的计划记忆稳定长期执行。规划器、计划优化器和批评者通过共享内存协作,将原始交互轨迹抽象为多视角意图表示和可重用技能。运行时,意图原型检索子组对齐的技能并注入部分计划,减少冗余重规划并缓解桌面应用中的错误传播。端到端评估显示,IntentCUA的任务成功率为74.83%,步骤效率比为0.91,优于基于强化学习和轨迹中心的基线方法。消融实验表明,多视角意图抽象和共享计划记忆共同提升了执行稳定性,合作多代理循环在长期任务中效果最佳。这些结果表明,系统级意图抽象和基于记忆的协调是实现大型动态环境中可靠高效桌面自动化的关键。
multi-agent planning intent abstraction skill reuse desktop automation
论文聚焦于多智能体规划中的意图对齐与技能抽象,直接涉及任务规划、计划生成和执行稳定性。
LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs
Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang et al.
牛津大学语言学系(英国)
9/10 2026-02-18 cs.AI PDF
本文提出LLM-Wikirace,一个用于评估大语言模型(LLMs)规划、推理和世界知识能力的基准测试。在该基准中,模型需要逐步通过维基百科的超链接从给定源页面导航至目标页面,要求具备前瞻规划能力和对现实世界概念连接关系的推理能力。我们评估了包括Gemini-3、GPT-5和Claude Opus 4.5在内的多种开源和闭源模型,这些模型在简单任务中表现出色,但在困难任务中性能显著下降。分析表明,世界知识是成功的关键因素之一,但当达到一定阈值后,规划和长时程推理能力成为主导因素。轨迹级分析进一步揭示,即使是最强模型在失败后也难以重新规划,常陷入循环而非恢复。LLM-Wikirace作为一个简单的基准,揭示了当前推理系统的明显局限性,为具有规划能力的LLMs提供了一个开放的验证平台。
planning reasoning knowledge graphs benchmarking LLM evaluation
论文聚焦于LLM在真实知识图谱中的长期规划与推理能力,是规划能力研究的核心内容。
Code
MALLVI: a multi agent framework for integrated generalized robotics manipulation
Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani, AmirHossein Jadidi, Saina Kashani et al.
沙里夫理工大学电气工程学院 沙里夫理工大学技术学院
9/10 2026-02-18 cs.RO PDF
基于大语言模型(LLMs)的机器人操作任务规划是一个新兴领域。现有方法依赖于专用模型、微调或提示调整,并通常以开环方式运行,缺乏对环境的鲁棒反馈,导致在动态环境中表现脆弱。本文提出MALLVI,一个结合大语言模型与视觉的多智能体框架,支持闭环反馈驱动的机器人操作。给定自然语言指令和环境图像,MALLVI生成可执行的原子动作。执行后,视觉语言模型(VLM)评估环境反馈并决定是否重复过程或进入下一步。MALLVI通过协调多个专门代理(Decomposer、Localizer、Thinker、Reflector)来管理感知、定位、推理和高层规划。可选的Descriptor代理提供初始状态的视觉记忆。Reflector通过仅重新激活相关代理实现有针对性的错误检测与恢复,避免全面重规划。仿真与真实环境实验表明,迭代闭环多代理协作提升了泛化能力,并提高了零样本操作任务的成功率。
机器人操作 多智能体系统 任务规划 闭环控制 视觉语言模型
论文重点研究多智能体框架下的任务规划与闭环反馈机制,涉及高阶规划和动态环境适应。
Code
AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence
Geunbin Yu
韩国国立开放大学人工智能学院
9/10 2026-02-18 cs.MA PDF
随着不同供应商的大语言模型在基准测试中的性能趋于一致,传统的按任务选择最佳模型的方法已难以带来显著提升。本文认为,多智能体的协调结构(即如何组合、并行化和合成多个智能体)已成为决定系统性能的关键因素。为此,我们提出了AdaptOrch框架,该框架基于任务依赖图和经验推导的领域特征,动态选择四种经典协调拓扑(并行、顺序、分层和混合)。我们的框架包含三个核心贡献:(1) 提出性能趋同扩展定律,明确协调选择优于模型选择的条件;(2) 设计一种拓扑路由算法,将任务分解的DAG映射到最优协调模式,时间复杂度为O(|V| + |E|);(3) 引入具有可证明终止保证和启发式一致性评分的自适应合成协议。我们在代码生成(SWE-bench)、推理(GPQA)和检索增强生成任务中验证了AdaptOrch,结果表明,即使使用相同的底层模型,拓扑感知的协调方法相比静态单拓扑基线提升了12-23%。我们的研究确立了协调设计作为独立于模型扩展的首要优化目标。
多智能体协调 任务规划 LLM性能趋同 动态拓扑选择
论文聚焦于多智能体任务规划与协调架构,提出动态选择拓扑结构以优化系统性能。
RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
Yixue Zhang, Kun Wu, Zhi Gao, Zhen Zhao, Pei Ren et al.
北京创新中心 北京理工大学
9/10 2026-02-18 cs.RO PDF
通用目的机器人操作受到多样化现实交互数据稀缺的限制。与视觉或语言领域的网络数据收集不同,机器人数据收集是一个主动过程,成本高昂。为此,本文提出RoboGene,一个智能体框架,用于自动生成适用于单臂、双臂和移动机器人的多样化且物理可行的操作任务。该框架包含三个核心组件:多样性驱动的采样以确保广泛的任务覆盖、自我反思机制以强制执行物理约束,以及人机协同的持续改进机制。通过大规模现实实验和18,000条轨迹的数据集,验证了RoboGene在任务质量、可行性和多样性方面的优越性,并显著优于现有基础模型(如GPT-4o、Gemini 2.5 Pro)。结果表明,使用RoboGene预训练的VLA模型在成功率和泛化能力方面表现更优。
机器人操作 任务生成 智能体框架 VLA预训练 物理约束
论文核心聚焦于通过智能体框架自动生成多样化的现实任务,涉及任务规划与生成机制。
Code
Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
Shutian Gu, Chengkai Huang, Ruoyu Wang, Lina Yao
新南威尔士大学, 悉尼, 澳大利亚
9/10 2026-02-17 cs.CV PDF
视觉-语言导航(VLN)要求智能体根据自然语言指令在未见过的环境中进行导航。近期方法越来越多地采用大语言模型(LLMs)作为高层导航器,因其灵活性和推理能力。然而,基于提示的LLM导航通常存在决策效率低的问题,因为模型必须在每一步从头开始解释指令,并对嘈杂且冗长的导航候选进行推理。本文提出了一种检索增强框架,在不修改或微调底层语言模型的情况下,提高基于LLM的VLN的效率和稳定性。该方法在两个互补层次引入检索:在情节层面,通过指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例,为指令定位提供任务特定的先验知识;在步骤层面,通过模仿学习的候选检索器在LLM推理前剪枝无关的导航方向,减少动作模糊性和提示复杂性。两种检索模块均轻量、模块化,并独立于LLM进行训练。我们在Room-to-Room(R2R)基准上评估了该方法,实验结果表明在已见和未见环境中,成功率、Oracle成功率和SPL指标均有显著提升。消融研究进一步表明,指令级示例检索和候选剪枝分别对全局引导和步骤级决策效率有互补的贡献。这些结果表明,检索增强的决策支持是一种有效且可扩展的策略,用于增强基于LLM的视觉-语言导航。
vision-and-language navigation retrieval-augmented navigation instruction following candidate pruning
论文聚焦于提升基于LLM的视觉-语言导航任务中的规划效率,涉及任务分解与步骤级决策优化。
Lifelong Scalable Multi-Agent Realistic Testbed and A Comprehensive Study on Design Choices in Lifelong AGV Fleet Management Systems
Jingtian Yan, Yulun Zhang, Zhenting Liu, Han Zhang, He Jiang et al.
Robotsics Institute, Carnegie Mellon University
9/10 2026-02-17 cs.RO PDF
本文提出了一个名为Lifelong Scalable Multi-Agent Realistic Testbed (LSMART) 的开源模拟器,用于在自动化导引车(AGV)车队管理系统(FMS)中评估任何多智能体路径规划(MAPF)算法。长期MAPF(LMAPF)是MAPF的一个变种,其特点是持续为智能体分配新的目标。现有的MAPF和LMAPF研究通常假设简化的运动学模型和完美的通信与执行。本文提出LSMART,该模拟器考虑了智能体的动力学、通信延迟和执行不确定性,并针对FMS中的长期路径规划问题进行了实验分析,提供了关于如何有效设计集中式长期AGV车队管理系统的指导。
多智能体路径规划 长期路径规划 AGV车队管理 仿真系统 任务规划
论文聚焦于多智能体路径规划(MAPF)及长期路径规划(LMAPF)的系统设计与评估,直接涉及任务规划、目标分配和执行策略。
Code
VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing
Guoqin Tang, Qingxuan Jia, Gang Chen, Tong Li, Zeyuan Huang et al.
北京邮电大学智能学院
9/10 2026-02-17 cs.RO PDF
视觉语言模型(VLM)在智能制造中的高层规划中展现出潜力,但其在动态工作单元中的部署面临两个关键挑战:(1)无状态操作,无法持续跟踪视野外的状态,导致世界状态漂移;(2)推理过程不透明,故障难以诊断,导致代价高昂的盲目重试。本文提出了VLM-DEWM,一种认知架构,通过可持久化、可查询的动态外部世界模型(DEWM)将VLM推理与世界状态管理解耦。每个VLM决策被结构化为可外部化的推理轨迹(ERT),包括动作建议、世界信念和因果假设,并在执行前与DEWM进行验证。当发生故障时,预测状态与观测状态之间的差异分析能够实现针对性恢复,而非全局重新规划。我们在多工位装配、大规模设施探索和真实机器人故障恢复任务中评估了VLM-DEWM。与基线记忆增强型VLM系统相比,VLM-DEWM将状态跟踪准确率从56%提高到93%,恢复成功率从低于5%提高到95%,并通过结构化记忆显著降低了计算开销。这些结果确立了VLM-DEWM作为动态制造环境中长期机器人操作的可验证且鲁棒的解决方案。
视觉语言模型 动态世界模型 机器人规划 制造自动化 状态跟踪
论文聚焦于视觉语言模型在制造环境中的规划能力,提出动态外部世界模型以提升可验证性和鲁棒性,属于规划能力的核心研究。
Removing Planner Bias in Goal Recognition Through Multi-Plan Dataset Generation
Mustafa F. Abdelwahed, Felipe Meneguzzi Kin Max Piamolini Gusmao, Joan Espasa
University of St Andrews, School of Computer Science, UK Pontifical Catholic University of Rio Grande do Sul, Brazil University of Aberdeen, UK
9/10 2026-02-16 cs.AI PDF
自主代理人在多智能体环境中需要具备目标和计划识别能力。然而,现有目标识别数据集由于依赖启发式前向搜索的规划系统而存在系统性偏差,导致其在真实场景中挑战性不足,影响了不同规划器下目标识别器的评估效果。本文提出一种基于top-k规划的方法,为同一目标假设生成多个不同的计划,从而构建减少偏差的数据集。同时引入版本覆盖率得分(VCS)作为新指标,用于衡量目标识别器在面对不同计划集合时的鲁棒性。实验结果表明,当前最先进的目标识别器在低可观测性环境下表现出显著的鲁棒性下降。
目标识别 规划偏差 多计划生成 鲁棒性评估
论文聚焦于目标识别中的规划偏差问题,提出多计划数据集生成方法,直接涉及规划能力的核心机制。
Arbor: A Framework for Reliable Navigation of Critical Conversation Flows
Luís Silva, Diogo Gonçalves, Catarina Farinha, Clara Matos, Luís Ungaro
Sword Health
9/10 2026-02-16 cs.AI PDF
大型语言模型在高风险领域(如医疗分诊)中难以严格遵循结构化的工作流程。传统的单提示方法在提示长度增加时容易出现指令遵循退化问题。为解决这一问题,本文提出了Arbor框架,将决策树导航分解为专门的节点级任务。决策树以边列表形式标准化并动态检索。运行时,基于有向无环图(DAG)的调度机制迭代获取当前节点的出边,通过专用LLM调用评估有效转换,并将响应生成委托给独立推理步骤。该框架与底层决策逻辑和模型提供商无关。实验结果表明,Arbor在10个基础模型上显著提升了每轮对话的准确性,降低了延迟和成本。
对话流程导航 任务分解 DAG调度 医疗分诊
论文提出了一种用于导航关键对话流程的框架,涉及任务分解与动态规划机制,直接关联到规划能力。
MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs
Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi
意大利特伦托大学信号与系统实验室
9/10 2026-02-16 cs.AI PDF
AI代理需要进行规划以实现涉及感知、子目标分解和执行的复杂目标。这些计划由按照时间执行顺序(TEO)结构化的有序步骤组成,确保每个步骤在满足前提条件后才执行。现有研究对基础模型的时间执行理解局限于自动推导的注释、将TEO近似为线性链或仅文本输入。为弥补这一不足,我们引入了MATEO(多模态时序执行顺序),一个旨在评估和提升大型视觉语言模型(LVLMs)时序推理能力的基准,以支持现实世界的规划任务。我们获取了一个高质量的专业多模态食谱语料库,通过标准化编辑流程将指令分解为离散步骤,并配以相应图像。我们通过设计可扩展的众包流程收集TEO注释作为图结构。使用MATEO,我们在不同模型规模、语言上下文、多模态输入结构和微调策略下评估了六种最先进的LVLM。
temporal reasoning planning LVLM multimodal benchmark task decomposition
论文聚焦于AI agent的规划能力,特别是时间执行顺序(TEO)和任务分解,直接涉及规划能力的核心机制。
Tool-Aware Planning in Contact Center AI: Evaluating LLMs through Lineage-Guided Query Decomposition
Varun Nathan, Shreyas Guha, Ayush Kumar
Observe.AI
9/10 2026-02-16 cs.CL PDF
本文提出了一种面向接触中心AI的领域驱动框架和基准,用于工具感知的计划生成。回答业务洞察查询需要将其分解为结构化工具(如Text2SQL/Snowflake)和非结构化工具(如RAG/转录文本)上的可执行步骤,并明确依赖关系以实现并行处理。本文贡献包括:(i) 基于参考的计划评估框架,包含多维指标评估器和单次评估器;(ii) 一种数据整理方法,通过评估器-优化器循环迭代优化计划,减少人工干预;(iii) 对14种不同规模和家族的LLM进行大规模实验,评估其在有无谱系提示下分解查询为分步、可执行、分配工具计划的能力。实验证明,LLM在复杂查询和超过4步的计划上表现不佳,最佳总评分达到84.8%(Claude-3-7-Sonnet),而最高单次匹配率仅为49.75%(o3-mini)。计划谱系整体效果不一,但对部分顶级模型有益,并提升了多个模型的步骤可执行性。结果突显了工具理解方面的持续差距,特别是工具提示对齐和工具使用完整性方面,表明较短、简单的计划更容易完成。该框架和发现为接触中心环境中通过工具回答数据分析查询的智能体规划评估与改进提供了可复现的路径。
工具感知规划 LLM评估 查询分解 计划生成 接触中心AI
论文聚焦于基于工具的规划生成,评估LLM在分解查询为可执行步骤中的能力,属于规划能力的核心研究。
World Models for Policy Refinement in StarCraft II
Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang et al.
中国科学院自动化研究所,复杂系统与智能科学重点实验室 清华大学人工智能研究院
9/10 2026-02-16 cs.AI PDF
大型语言模型(LLMs)近期展现出强大的推理和泛化能力,激励其在复杂环境中作为决策策略使用。《星际争霸II》(SC2)因其庞大的状态-动作空间和部分可观测性,成为具有挑战性的测试平台。然而,现有的基于LLM的SC2智能体主要关注改进策略本身,而忽视了将可学习的动作条件转移模型整合到决策循环中。为弥补这一差距,我们提出了StarWM,这是首个针对SC2的世界模型,能够在部分可观测条件下预测未来观测。为促进对SC2混合动态的学习,我们引入了一种结构化的文本表示方法,将观测分解为五个语义模块,并构建了SC2-Dynamics-50k数据集,这是首个用于SC2动态预测的指令调优数据集。我们进一步开发了一个多维离线评估框架,用于预测结构化观测。离线结果表明,StarWM相比零样本基线有显著提升,包括资源预测准确率提高了近60%,以及自身宏观局势一致性提升。最后,我们提出了StarWM-Agent,这是一个集成StarWM的世界模型增强决策系统,将其纳入生成-模拟-优化的决策循环,以实现前瞻性驱动的策略优化。在线评估结果显示,StarWM-Agent在对抗SC2内置AI时表现稳定,分别提升了30%、15%和30%的胜率,同时改善了宏观管理稳定性和战术风险评估。
强化学习 世界模型 策略优化 星际争霸II 决策系统
论文聚焦于通过世界模型增强决策系统,实现前瞻性策略优化,直接涉及任务规划与多步决策。
Code
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang et al.
Project Page: redsearchagent.github.io
9/10 2026-02-15 cs.AI PDF
大型语言模型正在从通用知识引擎向现实问题求解器转变,但优化其在深度搜索任务中的表现仍具挑战性。主要瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性,这源于可扩展的长时域任务构建困难以及涉及外部工具调用的交互密集型展开成本较高。为解决这些问题,我们提出了REDSearcher,一个统一框架,联合设计复杂任务合成、中期训练和后期训练,以实现可扩展的搜索代理优化。具体而言,REDSearcher引入了以下改进:(1)我们将任务合成视为双约束优化问题,通过图拓扑结构和证据分布精确控制任务难度,从而生成复杂且高质量的任务。(2)我们引入工具增强查询,鼓励主动使用工具而非被动回忆。(3)在中期训练中,我们显著增强了核心原子能力,包括知识、规划和函数调用,大幅降低了收集高质量轨迹的成本。(4)我们构建了一个本地模拟环境,支持快速、低成本的强化学习算法迭代。在仅文本和多模态搜索代理基准测试中,我们的方法均达到最先进水平。为促进未来对长时域搜索代理的研究,我们将发布10K条高质量复杂文本搜索轨迹、5K条多模态轨迹和1K条文本强化学习查询集,并提供代码和模型检查点。
搜索代理 任务规划 强化学习 工具调用 长时域任务
论文聚焦于长期搜索任务的规划与优化,涉及任务合成、规划能力提升和多步骤搜索框架设计。
Code
CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments
Abubakarr Jaye, Nigel Boachie Kumankumah, Chidera Biringa, Anjel Shaileshbhai Patel, Sulaiman Vesal et al.
Microsoft Corporation
9/10 2026-02-15 cs.AI PDF
长期推理是自主代理的关键挑战,但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务,涉及交错、依赖和重新优先级排序。本文引入多时间跨度任务环境(MHTEs),要求在持续执行上下文中协调数十个交错任务(45+,500-1500+步)。研究识别出四种导致基线CUA完成率从16.7%下降至8.7%的失败模式,并提出CorpGen框架,通过分层规划、子代理隔离、分级记忆和自适应摘要解决这些问题。实验表明,CorpGen在OSWorld Office上实现3.5倍性能提升,验证了其架构机制的有效性。
多任务规划 长期推理 自主代理 企业环境模拟
论文聚焦于多时间跨度任务环境中的规划能力,提出分层规划和子代理隔离等机制以提升长期任务执行效果。
Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management
Hojjat Navidan, Mohammad Cheraghinia, Jaron Fontaine, Mohamed Seif, Eli De Poorter et al.
美国弗吉尼亚大学电气与计算机工程系
9/10 2026-02-15 cs.NI PDF
开放无线接入网络(O-RAN)通过解耦和软件驱动的组件以及开放接口,为6G网络提供了灵活的接入方式,但其可编程性也增加了操作复杂性。服务管理层与RAN智能控制器(RIC)中存在多个控制回路,而独立开发的控制应用可能以非预期的方式交互。近年来生成式人工智能的进步推动了从孤立AI模型向智能体AI系统的转变,这些系统能够解释目标、协调多个模型和控制功能,并随时间适应行为。本文提出了一种面向O-RAN的多尺度智能体AI框架,将RAN智能组织为跨非实时(Non-RT)、近实时(Near-RT)和实时(RT)控制回路的协调分层结构:(i)在非实时RIC中的大型语言模型(LLM)代理将运营商意图转化为策略并管理模型生命周期;(ii)在近实时RIC中的小型语言模型(SLM)代理执行低延迟优化,并可激活、调整或禁用现有控制应用;(iii)靠近分布式单元的无线物理层基础模型(WPFM)代理提供接近空中接口的快速推理。我们描述了这些代理如何通过标准化的O-RAN接口和遥测数据进行协作。使用基于开源模型、软件和数据集的原型实现,我们在两个代表性场景中展示了所提出的智能体方法:在非平稳条件下的鲁棒运行和意图驱动的切片资源控制。
O-RAN 智能体AI 多尺度控制 实时网络管理
论文提出多尺度智能体框架,用于协调不同层级的控制环路,涉及任务分解与目标导向行为。
GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training
Yuan Cao, Dezhi Ran, Mengzhou Wu, Yuzhe Guo, Xin Chen et al.
中国科学院自动化研究所 清华大学
9/10 2026-02-15 cs.AI PDF
在交互环境中对GUI代理进行后训练对于发展其泛化能力和长期规划能力至关重要。然而,在真实世界应用中进行训练受到高延迟、较差的可重复性以及依赖噪声视觉代理的不可验证奖励的限制。为了解决这些限制,我们提出了GUI-GENESIS,这是首个能够自动合成高效GUI训练环境并具有可验证奖励的框架。GUI-GENESIS利用多模态代码模型将真实世界应用重构为轻量级网络环境,并为其配备原生代码奖励,提供确定性的奖励信号并消除视觉估计噪声。大量实验表明,与在真实应用上训练相比,GUI-GENESIS将环境延迟降低了10倍,每个训练周期的成本减少了超过28,000美元。值得注意的是,使用GUI-GENESIS训练的代理在保留的真实世界任务上比基础模型提高了14.54%,甚至比现实世界的强化学习基线模型提高了3.27%。最后,我们观察到模型可以合成它们目前还无法解决的环境,这为自我改进的代理提供了一条路径。
GUI Agent 环境合成 可验证奖励 长期规划 后训练
论文聚焦于提升Agent的长期规划能力,通过构建高效可验证奖励环境实现后训练。
Prompt-Driven Low-Altitude Edge Intelligence: Modular Agents and Generative Reasoning
Jiahao You, Ziye Jia, Chao Dong, Qihui Wu
中国航空研究院航空系统工程研究所 北京航空航天大学自动化科学与电气工程学院
9/10 2026-02-15 cs.AI PDF
大人工智能模型(LAMs)在感知、推理和多模态理解方面表现出强大的能力,能够为低空边缘智能提供先进功能。然而,LAMs在边缘部署仍受到一些基本限制。首先,任务与特定模型紧密绑定,限制了灵活性;其次,全规模LAMs的计算和内存需求超出了大多数边缘设备的容量;此外,当前的推理流程通常是静态的,难以应对任务的实时变化。为了解决这些挑战,本文提出了一种提示到代理的边缘认知框架(P2AECF),实现灵活、高效和自适应的边缘智能。具体而言,P2AECF通过三个关键机制将高层语义提示转化为可执行的推理工作流。第一,基于提示的认知解析将任务意图转换为抽象且与模型无关的表示形式;第二,基于代理的模块化执行根据当前资源条件动态选择轻量级、可重用的认知代理来实例化任务;第三,扩散控制的推理规划通过整合运行时反馈和系统上下文,自适应地构建和优化执行策略。此外,本文通过一个典型的低空智能网络用例展示了该框架的能力,表明其可以为实时低空空中协作提供自适应、模块化和可扩展的边缘智能。
边缘智能 模块化代理 动态推理 任务规划 低空网络
论文重点研究了边缘智能中的任务规划与执行策略,涉及动态推理和适应性规划机制。
WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei et al.
清华大学自动化系 中国科学院自动化研究所
9/10 2026-02-15 cs.RO PDF
强化学习(RL)有望超越模仿学习,为视觉-语言-动作(VLA)模型解锁更多能力,但其对大量现实交互的需求阻碍了其在物理机器人上的直接部署。近期研究尝试使用学习到的世界模型作为策略优化的模拟器,但闭环想象的滚动不可避免地会受到幻觉和长时域误差累积的影响。这些误差不仅降低视觉保真度,还会破坏优化信号,使策略倾向于利用模型不准确之处而非真正推进任务。本文提出WoVR,一种基于可靠世界模型的强化学习框架,用于后训练VLA策略。WoVR不假设世界模型是完全准确的,而是显式调节RL如何与不完美的想象动态交互。它通过可控的动作条件视频世界模型提高滚动稳定性,通过关键帧初始化滚动减少有效误差深度,并通过世界模型与策略的协同进化保持策略与模拟器的一致性。在LIBERO基准测试和真实世界机器人操作中的广泛实验表明,WoVR能够实现稳定的长时域想象滚动和有效的策略优化,将LIBERO平均成功率从39.95%提升至69.2%(+29.3个百分点),真实机器人成功率从61.7%提升至91.7%(+30.0个百分点)。这些结果表明,当幻觉被显式控制时,学习到的世界模型可以作为强化学习的实际模拟器。
强化学习 世界模型 策略优化 长期规划 机器人控制
论文聚焦于通过世界模型进行长期规划和策略优化,直接涉及Agent的规划能力。
Code
PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning
Yu Li, Guangfeng Cai, Shengtian Yang, Han Luo, Shuo Han et al.
School of Computer Science and Engineering, Southeast University, Nanjing, China
9/10 2026-02-14 cs.AI PDF
近年来,大型语言模型(LLM)代理在通过工具使用执行复杂任务方面表现出强大的能力。然而,长期多步骤工具规划仍然具有挑战性,因为探索空间面临组合爆炸问题。在此情况下,即使找到正确的工具使用路径,通常也仅被视为当前训练的即时奖励,无法为后续训练提供可重用的信息。本文认为,历史上成功的轨迹包含可重用的工具转换模式,可以在整个训练过程中加以利用。受蚁群优化算法启发,我们提出了一种基于信息素引导的策略优化方法(PhGPO),该方法从历史轨迹中学习轨迹为基础的转换模式(即信息素),并利用所学信息素指导策略优化。这种学习到的信息素提供了显式且可重用的指导,使策略优化朝着历史上成功的工具转换方向进行,从而提升长期工具规划能力。全面的实验结果验证了所提PhGPO方法的有效性。
tool planning policy optimization long-horizon planning ant colony optimization trajectory learning
论文聚焦于长期多步骤工具规划问题,提出基于信息素引导的策略优化方法,直接针对规划能力的核心挑战。
MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time
Guangyi Liu, Haojun Lin, Huan Zeng, Heng Wang, Quanming Yao
清华大学 Ant Group
9/10 2026-02-14 cs.MA PDF
基于大语言模型(LLM)的多智能体系统(MAS)已成为解决复杂任务的一种有前景的范式。然而,现有研究通常依赖手动设计或“一刀切”的自动化方法,缺乏部署后的动态适应能力。受生物系统适应机制的启发,本文提出MASFly,一种新型的多智能体框架,能够在测试时实现动态适应。为实现系统生成的适应性,MASFly采用了一种检索增强的标准操作程序(SOP)实例化机制,利用自构建的成功协作模式知识库,使LLM能够为新查询组装定制化的MAS。在适应性执行方面,MASFly引入了经验引导的监督机制,其中专门的Watcher代理通过参考个性化经验池监控系统行为,并提供实时干预。大量实验表明,MASFly在TravelPlanner基准测试中实现了61.7%的成功率,表现出强大的任务适应性和鲁棒性。
多智能体系统 动态适应 任务规划 经验引导监督 LLM
论文聚焦于多智能体系统的动态适应,涉及任务规划与执行的实时调整机制。
Building Autonomous GUI Navigation via Agentic-Q Estimation and Step-Wise Policy Optimization
Yibo Wang, Guangda Huzhang, Yuwei Hu, Yu Xia, Shiyin Lu et al.
国家关键软件技术实验室,南京大学 阿里云Ovis团队
9/10 2026-02-14 cs.AI PDF
近年来,多模态大语言模型(MLLMs)显著推动了图形用户界面(GUI)自主代理的发展。然而,在实际应用中,GUI代理常面临非平稳环境,导致数据整理和策略优化的计算成本较高。本文提出了一种以MLLM为中心的新框架,包含两个组件:智能体Q估计和逐步策略优化。前者旨在优化一个Q模型,用于生成逐步值以评估特定动作对任务完成的贡献;后者则以状态-动作轨迹的逐步样本为输入,利用我们的智能体Q模型通过强化学习优化策略。实验表明,该框架赋予Ovis2.5-9B强大的GUI交互能力,在GUI导航和定位基准测试中表现出色,甚至超越了更大规模的竞争者。
GUI导航 强化学习 策略优化 多模态大语言模型
论文聚焦于GUI导航中的任务规划与策略优化,属于规划能力的核心研究。
OpAgent: Operator Agent for Web Navigation
Yuyu Guo, Wenjie Yang, Siyuan Yang, Ziyang Liu, Cheng Chen et al.
Ant Group
9/10 2026-02-14 cs.AI PDF
为了完成用户的指令,自主的网络代理必须应对现实世界网站固有的复杂性和波动性。传统方法主要依赖监督微调(SFT)或使用静态数据集的离线强化学习(RL),但这些方法由于离线轨迹无法捕捉无约束广域网络环境中的随机状态转移和实时反馈,存在严重的分布偏移问题。本文提出了一种基于在线强化学习的WebAgent,通过直接、迭代地与无约束的广域网站交互来优化其策略。我们的方法包含三个核心创新:1)分层多任务微调:我们整理了一个由功能原语分类的数据集混合体——规划、执行和接地,构建了一个具有强大指令遵循能力的视觉-语言模型(VLM),用于Web GUI任务。2)野外在线代理式RL:我们开发了一个在线交互环境,并通过专用的RL流程对VLM进行微调。我们引入了一种混合奖励机制,结合一个无需真实值的WebJudge进行全面结果评估和基于规则的决策树(RDT)以提供进度奖励。该系统有效缓解了长时程导航中的信用分配问题。值得注意的是,我们的RL增强模型在WebArena上的成功率为38.1%(pass@5),优于所有现有的单一体系基线。3)操作员代理:我们引入了一个模块化的代理框架,即OpAgent,协调规划器、接地器、反思器和摘要器。这种协同作用使代理具备强大的错误恢复和自我纠正能力,将代理性能提升至新的最先进(SOTA)成功率71.6%。
网页导航 在线强化学习 任务规划 模块化代理
论文重点研究了Agent在网页导航中的任务规划与多步骤策略生成,提出了分层多任务微调和Operator Agent框架。
Code
In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach
Yiran Gao, Kim Hammar, Tao Li
香港城市大学电子工程系
9/10 2026-02-13 cs.CR PDF
随着网络攻击的快速演变,需要能够自主学习和适应威胁的事件响应系统。以往的研究主要依赖强化学习方法,但该方法需要人工构建模拟器,并且会削弱原始系统日志和警报中的语义信息。为解决这些问题,本文提出利用大语言模型(LLM)的预训练安全知识和上下文学习能力,构建一个端到端的代理解决方案用于事件响应规划。具体而言,该代理整合了感知、推理、规划和行动四个功能模块,集成于一个轻量级的LLM中。通过微调和思维链推理,该代理能够处理系统日志并推断网络状态(感知),更新其对攻击模型的推测(推理),模拟不同响应策略的后果(规划),并生成有效的响应(行动)。通过将LLM模拟结果与实际观察进行比较,代理不断优化其攻击推测和响应策略,从而实现上下文自适应。该方法无需建模,可在普通硬件上运行。在文献中报告的事件日志上的评估表明,该代理比前沿LLM的恢复速度提高了23%。
network security incident response large language model agent planning context learning
论文核心围绕Agent的规划能力,包括任务分解、策略模拟与响应生成。
WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning
Junjie Wang, Zequn Xie, Dan Yang, Jie Feng, Yue Shen et al.
Ant Group
9/10 2026-02-13 cs.AI PDF
基于Web代理的深度研究系统在解决复杂信息检索任务方面展现出强大潜力,但其搜索效率仍鲜有研究。我们发现许多最先进的开源Web代理依赖于长工具调用轨迹、循环推理和无成效分支的探索。为此,我们提出WebClipper框架,通过基于图的剪枝压缩Web代理的轨迹。具体而言,我们将代理的搜索过程建模为状态图,并将轨迹优化转化为最小必要有向无环图(DAG)挖掘问题,从而生成保留关键推理步骤并去除冗余步骤的精简轨迹。在这些优化后的轨迹上进行持续训练,使代理能够进化出更高效的搜索模式,在减少约20%工具调用次数的同时提高准确性。此外,我们引入了一个新的指标F-AE分数,用于衡量模型在准确性和效率之间的平衡能力。实验表明,WebClipper在保持优秀性能的前提下减少了工具调用次数,为Web代理设计中平衡效果与效率提供了实用见解。
web agent trajectory pruning graph-based optimization search efficiency planning
论文聚焦于通过图结构轨迹剪枝提升Web Agent的搜索效率,直接涉及任务规划与路径优化。
Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models
Joshua Ong Jun Leang, Yu Zhao, Mihaela Cătălina Stoian, Wenda Li, Shay B. Cohen et al.
Imperial College London
9/10 2026-02-13 cs.AI PDF
尽管在掩码扩散模型(MDMs)中采用计划-填充解码策略在数学和代码推理方面表现出潜力,但其性能高度依赖于槽位填充顺序,常导致输出结果的显著波动。本文提出McDiffuSE框架,将槽位选择建模为决策过程,并通过蒙特卡洛树搜索(MCTS)优化填充顺序。该框架利用前瞻模拟评估部分完成情况,在承诺前系统探索生成顺序的组合空间。实验表明,与自回归基线相比,McDiffuSE平均提升了3.2%,与基线计划-填充方法相比提升了8.0%,在MBPP和MATH500数据集上分别提升了19.5%和4.9%。分析发现,虽然McDiffuSE主要遵循顺序生成,但引入非顺序生成对最大化性能至关重要。研究还发现,增加探索常数比增加模拟次数更有效,有助于克服模型置信度偏差并发现有效的顺序。这些发现确立了基于MCTS的规划方法作为提升MDMs生成质量的有效途径。
蒙特卡洛树搜索 扩散语言模型 生成顺序优化 任务规划
论文提出基于MCTS的规划方法优化槽位填充顺序,直接涉及Agent的生成规划能力。
ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
Zhuoyang Zhang, Shang Yang, Qinghao Hu, Luke J. Huang, James Hou et al.
MIT NVIDIA Caltech
9/10 2026-02-12 cs.RO PDF
视觉-语言-动作(VLA)模型能够将高层语言指令转化为具体的可执行动作,这在开放世界环境中尤其具有挑战性。本文提出了一种通用且高效的规划器Visual Foresight Planning(ForeAct),它通过想象未来的观察结果和子任务描述,逐步引导VLA模型。借助想象的未来观察,VLA可以专注于视觉-运动推理,而非高层语义推理,从而提升准确性和泛化能力。该规划器包含一个高效的前瞻图像生成模块,能够在H100 GPU上仅用0.33秒从当前视觉输入和语言指令生成高质量的640×480未来观察图像,并结合一个视觉-语言模型对任务进行推理,为生成器和VLA生成子任务描述。先进的VLA模型可以通过简单地增强其视觉输入来无缝集成该规划器,无需任何架构修改。前瞻性生成器在超过100万个多任务、跨形态的训练集上预训练,使其能够学习稳健的具身动态。我们在包含11个多样化、多步骤现实任务的基准上评估了该框架,平均成功率达到87.4%,比基线π₀(46.5%)提升了40.9%,比结合文本子任务引导的π₀(57.1%)提升了30.3%。
视觉-语言-动作模型 任务规划 视觉前瞻 具身智能 多步骤任务
论文核心研究了基于视觉前瞻的规划方法,用于指导VLA模型执行任务,属于规划能力的核心内容。
Code
Multi UAVs Preflight Planning in a Shared and Dynamic Airspace
Amath Sow, Mauricio Rodriguez Cesen, Fabiola Martins Campos de Oliveira, Mariusz Wzorek, Daniel de Leng et al.
林雪平大学,瑞典 巴西坎皮纳斯大学,巴西 巴西圣保罗大学,巴西
9/10 2026-02-12 cs.AI PDF
在动态共享空域中进行大规模无人机编队的预飞行规划面临诸多挑战,包括时间敏感的禁飞区、异构无人机配置以及严格的交付期限。尽管多智能体路径规划(MAPF)提供了一个形式化框架,但现有方法在实际无人机交通管理(UTM)中缺乏可扩展性和灵活性。本文提出DTAPP-IICR:一种基于交付时间感知的优先级规划方法,结合增量和迭代冲突解决机制。该框架首先根据任务紧急程度生成初始解决方案,其次使用SFIPP-ST(一种新型4D单智能体路径规划器)计算往返轨迹,能够处理异构无人机、严格遵守时间禁飞区,并将智能体间冲突建模为软约束。随后,通过几何冲突图引导的迭代大邻域搜索高效解决剩余冲突。一种保持完整性的定向剪枝技术进一步加速了三维搜索。实验表明,在包含时间禁飞区的基准测试中,DTAPP-IICR在最多1000架无人机的编队中实现了接近100%的成功率,并通过剪枝减少了50%的运行时间,优于其他基于优先级的方法。
无人机路径规划 多智能体路径规划 冲突解决 动态空域管理
论文聚焦于多无人机的预飞行规划,提出了一种任务优先级和冲突解决机制,属于规划能力的核心研究。
Code
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral et al.
Meta Superintelligence Labs
9/10 2026-02-12 cs.AI PDF
本文介绍了Gaia2,一个用于评估大型语言模型代理在真实、异步环境中表现的基准。与以往静态或同步评估不同,Gaia2引入了环境独立于代理动作而演变的场景,要求代理在时间约束下运行、适应噪声和动态事件、解决歧义并与其他代理协作。每个场景均配有写操作验证器,支持细粒度的动作级评估,并使Gaia2可以直接用于基于可验证奖励的强化学习。对当前最先进的专有和开源模型的评估表明,没有一种模型在所有能力上都占优:GPT-5(高)以42%的pass@1得分达到最强整体表现,但在时间敏感任务中失败;Claude-4 Sonnet以准确性和速度换取成本;Kimi-K2在开源模型中领先,得分为21% pass@1。这些结果突显了推理、效率和鲁棒性之间的根本权衡,并揭示了缩小“sim2real”差距的挑战。Gaia2基于消费者环境构建,并使用开源的Agents Research Environments平台,设计易于扩展。通过与基础ARE框架一同发布Gaia2,我们旨在为社区提供一个灵活的基础设施,用于开发、基准测试和训练下一代实用代理系统。
动态环境 异步交互 任务规划 多代理协作 强化学习
论文聚焦于Agent在动态异步环境中的任务规划与适应能力,是规划能力研究的核心内容。
Where Bits Matter in World Model Planning: A Paired Mixed-Bit Study for Efficient Spatial Reasoning
Suraj Ranganath, Anish Patnaik, Vaishak Menon
加利福尼亚大学圣迭戈分校
9/10 2026-02-12 cs.LG PDF
高效的空问推理需要在有限精度预算下保持可靠的世界模型。本文研究低位宽规划行为是由总位宽还是模块间位宽分配决定。通过DINO-WM在Wall规划任务上的实验,对比了均匀、混合、不对称和逐层位宽分配方案,并观察到三种模式:8位和6位接近FP16,3位失效,4位依赖位宽分配。在转换区域,保留编码器精度可提升规划效果,且近尺寸不对称变体表现出相同趋势。在后续严格22-cell复制实验中,混合与均匀INT4符号受预算条件影响,进一步突显该过渡区域的敏感性。这些发现推动了面向模块和预算的量化策略作为高效空间推理的更广泛研究方向。
量化 世界模型 空间推理 规划 位宽分配
论文聚焦于世界模型中的规划行为,研究不同位宽分配对空间推理效率的影响,直接关联到Agent的规划能力。
Code
Intelligent AI Delegation
Nenad Tomašev, Matija Franklin, Simon Osindero
Google DeepMind
9/10 2026-02-12 cs.AI PDF
AI代理能够处理日益复杂的任务。为了实现更宏大的目标,AI代理需要能够将问题有意义地分解为可管理的子组件,并安全地将其完成任务委托给其他AI代理和人类。然而,现有的任务分解和委托方法依赖于简单的启发式方法,无法动态适应环境变化并稳健处理意外故障。本文提出了一种智能AI委托的自适应框架——一系列涉及任务分配的决策,同时包含权力转移、责任划分、明确的角色和边界规范、意图清晰度以及建立双方(或多方)信任的机制。该框架适用于复杂委托网络中的人类和AI委托方与被委托方,旨在指导新兴代理网络中协议的发展。
任务分解 委托机制 多代理系统 规划框架
论文聚焦于任务分解与委托的框架设计,属于规划能力的核心研究内容。
Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation
Lingyong Yan, Jiulong Wu, Dong Xie, Weixian Shi, Deguo Xia et al.
百度公司, 中国
9/10 2026-02-12 cs.AI PDF
尽管近期端到端视频生成模型在视觉内容创作方面表现出色,但在需要严格逻辑严谨性和精确知识表示的场景(如教学和教育媒体)中仍存在局限。为解决这一问题,本文提出LAVES,一种基于LLM的分层多智能体系统,用于从教育问题生成高质量的教学视频。LAVES将教育视频生成定义为一个需要正确逐步推理、教学上连贯的叙述、语义忠实的视觉演示以及精确视听对齐的多目标任务。为克服现有方法的不足,包括过程保真度低、制作成本高和可控性差,LAVES将生成流程分解为由中央协调代理管理的专用代理,并引入显式质量门控和迭代批评机制。具体而言,协调代理监督解决方案代理进行严谨的问题求解、插图代理生成可执行的可视化代码,以及叙述代理生成面向学习者的教学脚本。此外,所有工作代理的输出均需接受语义批评、基于规则的约束和工具编译检查。该系统不直接合成像素,而是构建结构化的可执行视频脚本,并通过模板驱动的装配规则确定性地编译为同步的视觉和叙述内容,实现完全自动化的端到端生产,无需人工编辑。在大规模部署中,LAVES每天可生成超过一百万部视频,在保持高接受率的同时,相比当前行业标准方法,成本降低了95%以上。
多智能体系统 教育视频生成 任务规划 LLM应用
论文提出基于LLM的多智能体系统,用于教育视频生成,涉及任务分解与协调机制,符合规划能力主题。
Code
FlowMind: Execute-Summarize for Structured Workflow Generation from LLM Reasoning
Yihao Liu, Ziyun Zhang, Zile He, Huaqian Cai
北京大学 East China University of Technology National Key Laboratory of Data Space Technology and System
9/10 2026-02-12 cs.AI PDF
尽管大型语言模型(LLMs)可以通过推理和工具使用解决复杂任务,但将这些解决方案准确地转化为结构化的工作流仍具有挑战性。本文将工作流建模为工具使用的序列,并重新表述问题为设计一种既能解决问题又能可靠构建工作流的机制。现有方法在执行过程中构建工作流时,常因两个过程之间的干扰而产生不准确性。为此,我们提出了一种执行-总结(Execute-Summarize, ES)框架,将任务执行与工作流构建解耦:模型首先利用可用工具完成任务,然后独立地从执行轨迹中重建结构化工作流。这种分离提高了工作流的准确性和鲁棒性。我们引入了FlowBench,并通过大量实验表明,我们的方法优于现有方法,为将自由形式的LLM推理嵌入到结构化工作流中提供了一个可靠的范式。
工作流生成 任务规划 LLM推理 结构化输出
论文聚焦于从LLM推理中生成结构化工作流,属于任务规划与执行分离的核心研究。
TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents
Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche
Technical University Munich 'IBM Research'
9/10 2026-02-12 cs.AI PDF
随着大语言模型(LLMs)的发展,研究者正转向使用强化学习(RL)从跨任务的迭代、多轮交互中训练智能体。然而,多轮强化学习仍面临奖励稀疏或延迟、环境随机性强等挑战。在这一背景下,简单的轨迹采样可能阻碍利用并导致模式崩溃。本文提出TSR(Trajectory-Search Rollouts),一种训练时的方法,通过将测试时的扩展思想应用于训练阶段的轨迹生成,以提高每轮轨迹的质量。TSR采用轻量级树状搜索,在每一步选择高得分动作以构建高质量轨迹,从而提升轨迹质量并稳定学习过程,同时保持底层优化目标不变,使TSR与优化器无关。本文实现了TSR与最佳N选法、束搜索和浅层前瞻搜索相结合,并与PPO和GRPO结合,在Sokoban、FrozenLake和WebShop任务上实现最高15%的性能提升和更稳定的学习效果,仅需一次增加训练计算量。通过将搜索从推理阶段转移到训练的轨迹生成阶段,TSR为更强的多轮智能体学习提供了一种简单且通用的机制,可与现有框架和拒绝采样式选择方法互补。
强化学习 多轮交互 轨迹生成 智能体训练
论文聚焦于多轮强化学习中的轨迹生成与规划,提出TSR方法提升任务规划质量。
AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild
Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu et al.
清华大学
9/10 2026-02-12 cs.SE PDF
在移动GUI代理领域,基准测试对于评估进展至关重要。然而,现有基准通常假设用户指令是完整且明确的,忽略了实际场景中用户表达常含糊不清的问题。为此,本文提出AmbiBench,首个引入指令清晰度分类体系的基准,将评估从单向指令遵循转向双向意图对齐。基于认知差距理论,该基准定义了四个清晰度等级,并构建了包含240个生态有效任务的数据集。同时,研究开发了MUSE框架,通过多智能体架构实现对执行效果、质量及交互质量的细粒度评估。实验结果揭示了当前最优代理在不同清晰度等级下的性能边界,并验证了MUSE与人类判断的高度一致性。
移动GUI代理 意图对齐 任务规划 多智能体评估
论文聚焦于移动GUI代理在模糊指令下的任务规划与意图对齐,强调交互式执行和动态环境中的目标导向行为。
Learning to Configure Agentic AI Systems
Aditya Taparia, Som Sagar, Ransalu Senanayake
Equal contribution School of Computing and Augmented Intelligence, Arizona State University, Tempe, United States of America
9/10 2026-02-12 cs.AI PDF
基于LLM的代理系统配置涉及从大量组合设计空间中选择工作流、工具、令牌预算和提示,目前通常通过固定的大模板或手工调整的启发式方法处理。这导致了脆弱的行为和不必要的计算开销,因为相同的繁琐配置经常应用于简单和复杂输入查询。本文将代理配置表述为按查询的决策问题,并引入ARC(Agentic Resource & Configuration learner),该模型使用强化学习学习一个轻量级分层策略,以动态定制这些配置。在多个涵盖推理和工具增强问答的基准测试中,所学策略始终优于强大的手工设计和其他基线,在提高任务准确性的同时还降低了令牌和运行时成本。这些结果表明,按查询学习代理配置是“一刀切”设计的强大替代方案。
agent configuration reinforcement learning resource allocation task planning
论文聚焦于Agent系统的动态配置,属于任务规划与资源分配的核心研究。
Code
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use
Hanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu et al.
百度公司
9/10 2026-02-12 cs.AI PDF
本文研究了在严格预算限制下,如何通过调用外部工具使大型语言模型完成多步骤任务。由于状态-动作空间巨大、结果方差高以及探索成本高昂,直接规划变得不可行。为此,我们提出了INTENT,一个推理时的规划框架,利用意图感知的分层世界模型来预测未来的工具使用、风险校准的成本,并在线指导决策。在增强成本的StableToolBench基准测试中,INTENT严格保证预算可行性,显著提升了任务成功率,并在动态市场变化(如工具价格波动和预算变化)下保持鲁棒性。
预算约束 任务规划 工具调用 意图感知 强化学习
论文聚焦于预算约束下的任务规划,提出基于意图的规划框架INTENT,直接针对Agent的规划能力进行优化。
Adaptive Milestone Reward for GUI Agents
Congmin Zheng, Xiaoyun Mo, Xinbei Ma, Qiqiang Lin, Yin Zhao et al.
上海交通大学
9/10 2026-02-12 cs.LG PDF
强化学习(RL)已成为训练移动GUI代理的主要范式,但在长期任务中面临时间信用分配问题。主要挑战在于奖励保真度与密度之间的权衡:结果奖励具有高保真度但信号稀疏,过程奖励提供密集监督但易受偏差和奖励黑客攻击。为了解决这一冲突,我们提出了自适应里程碑奖励(ADMIRE)机制。ADMIRE通过将轨迹锚定到从成功探索中动态提炼出的里程碑,构建了一个可验证的自适应奖励系统。关键的是,ADMIRE集成了非对称信用分配策略,用于去噪成功轨迹并支撑失败轨迹。大量实验表明,ADMIRE在AndroidWorld上不同基础模型的成功率绝对提升了10%以上。此外,该方法表现出强大的泛化能力,在多种RL算法和异构环境中(如网页导航和具身任务)均取得良好性能。
强化学习 GUI代理 任务规划 奖励机制 长期任务
论文聚焦于通过自适应里程碑奖励机制提升GUI Agent在长期任务中的规划与执行能力,直接关联到任务分解和目标导向行为。
Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization
Yihang Yao, Zhepeng Cen, Haohong Lin, Shiqi Liu, Zuxin Liu et al.
卡内基梅隆大学
9/10 2026-02-11 cs.AI PDF
主动大型语言模型(LLM)代理旨在通过多轮主动规划、查询和交互来高效完成任务,超越被动指令遵循,适用于现实世界中以用户为中心的应用。最近,代理强化学习(RL)被提出作为在多轮场景中训练此类代理的有前景方法,允许从反馈中学习交互策略。然而,现有流程面临在任务性能与用户参与度之间取得平衡的关键挑战:被动代理无法有效适应用户意图,而过度依赖人类反馈会降低用户满意度。为解决这一权衡问题,本文提出BAO,一种结合行为增强与行为正则化的代理RL框架,以丰富主动推理和信息收集能力,并抑制低效或冗余的交互,使代理行为与用户期望保持一致。我们在UserRL基准套件上的多个任务中评估了BAO,结果表明其显著优于主动代理RL基线,并在复杂多轮场景中实现了与商业LLM代理相当甚至更优的性能,突显了其在训练主动且与用户对齐的LLM代理方面的有效性。
agent reinforcement learning user alignment planning multi-turn interaction
论文聚焦于主动代理的规划能力,提出行为代理优化框架以提升任务规划与用户意图对齐。
Code
Data-Efficient Hierarchical Goal-Conditioned Reinforcement Learning via Normalizing Flows
Shaswat Garg, Matin Moezzi, Brandon Da Silva
GitHub
9/10 2026-02-11 cs.RO PDF
分层目标条件强化学习(H-GCRL)为解决复杂、长期任务提供了一个强有力的框架,通过将其分解为结构化的子目标。然而,其实际应用受到数据效率低下和策略表达能力有限的阻碍,尤其是在离线或数据稀缺的情况下。本文提出了一种基于归一化流的分层隐式Q学习(NF-HIQL)新框架,在分层的高低层均用表达能力强的归一化流策略替代单峰高斯策略。该设计实现了可计算的对数似然、高效采样以及对丰富多模态行为的建模。理论分析推导了新的保证,包括针对RealNVP策略的显式KL散度界和PAC风格的样本效率结果,表明NF-HIQL在保持稳定性的同时提升了泛化能力。实验部分在OGBench平台上的多种长期任务(如运动、控球和多步操作)中评估了NF-HIQL,结果显示其优于先前的目标条件和分层基线方法,表现出在数据有限情况下的优越鲁棒性,并突显了基于流架构在可扩展、数据高效的分层强化学习中的潜力。
强化学习 分层学习 目标条件 归一化流 数据效率
论文聚焦于分层目标条件强化学习,涉及任务分解与长期规划,属于规划能力的核心研究。
Learning to Compose for Cross-domain Agentic Workflow Generation
Jialiang Wang, Shengxiang Xu, Hanmo Liu, Jiachuan Wang, Yuyu Luo et al.
香港科技大学(广州) 南方科技大学
9/10 2026-02-11 cs.MA PDF
自动生成功能性智能体工作流——可执行的操作符图或代码,用于协调推理、验证和修复——已成为解决单次LLM生成无法可靠处理的复杂任务的一种实用方法。然而,一个好的工作流取决于任务分布和可用操作符。在领域迁移情况下,现有系统通常依赖迭代工作流优化来从大规模工作流空间中发现可行方案,这导致高迭代成本和不稳定、特定领域的行为。为此,我们将在开源LLM中内化一种分解-重组-决策机制,用于跨领域工作流生成。为分解,我们学习一组跨多个领域可复用的工作流能力;为重组,我们将每个输入任务映射到这些基础能力上的稀疏组合,从而在单次传递中生成任务特定的工作流;为决策,我们将工作流生成的成功或失败归因于所学能力的反事实贡献,从而捕捉哪些能力通过边际效应真正驱动了成功。在严格的多领域、跨领域和未见领域评估中,我们的单次生成器超越了需要20次迭代的最先进优化基线,同时显著降低了生成延迟和成本。
智能体工作流 跨领域规划 任务分解 LLM优化
论文聚焦于跨领域智能体工作流生成,涉及任务分解与重组,属于规划能力的核心研究。
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
Qixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang et al.
Institute of Automation, Chinese Academy of Sciences Huawei Technologies Co., Ltd
9/10 2026-02-11 cs.SE PDF
由大语言模型驱动的代理在软件行业中被越来越多地采用,作为协作者甚至自主开发者编写代码。随着其应用范围的扩大,评估其当前编码能力的边界变得尤为重要。现有的代理编码基准测试通常涵盖有限的任务范围,例如单个提交请求(PR)内的错误修复,并且往往依赖非可执行的评估或缺乏自动更新评估覆盖范围的方法。为了解决这些问题,我们提出了FeatureBench,一个用于端到端、以功能为导向的软件开发中评估代理编码性能的基准测试。FeatureBench结合了基于执行的评估协议和一种可扩展的测试驱动方法,能够从代码仓库中自动推导任务,所需的人工干预极少。通过追踪单元测试并沿着依赖图进行分析,我们的方法可以识别跨越多个提交和PR的功能级编码任务,并确保分离后其他功能的正常运行。使用这一框架,我们在第一版基准测试中整理了200个具有挑战性的评估任务和3825个可执行环境,来自24个开源仓库。实证评估表明,最先进的代理模型(如Claude 4.5 Opus),在SWE-bench上达到74.4%的解决率,在FeatureBench上仅能成功完成11.0%的任务,这为推进代理编码提供了新的机会。此外,得益于我们的自动化任务收集工具包,FeatureBench可以轻松扩展和更新,以减少数据泄露问题。构建环境的内在可验证性也使该方法在代理训练中具有潜在价值。
agentic coding benchmarking software development task planning
论文聚焦于评估Agent在复杂功能开发中的规划与执行能力,涉及任务分解和多步骤开发流程。
Code
Abstraction Generation for Generalized Planning with Pretrained Large Language Models
Zhenhe Cui, Huaxiang Xia, Hangjun Shen, Kailun Luo, Yong He et al.
湖南大学科学与技术学院
9/10 2026-02-11 cs.AI PDF
定性数值规划(QNP)是通用规划(GP)的重要抽象模型,旨在计算能够同时解决多个实例的通用计划。近期研究表明,大型语言模型(LLMs)可以作为通用规划器。本文探讨LLMs是否可以作为QNP抽象生成器用于GP问题,并如何通过自动化调试修正抽象。我们提出了一种提示协议:将GP领域和训练任务输入LLMs,引导其生成抽象特征,并进一步将初始状态、动作集和目标抽象为QNP问题。设计了一种自动化调试方法,用于检测抽象错误并指导LLMs修正抽象。实验表明,在自动化调试的适当引导下,一些LLMs可以生成有用的QNP抽象。
通用规划 抽象生成 大语言模型 自动化调试
论文聚焦于通用规划(GP)中的抽象生成,直接涉及任务规划与多实例问题求解,属于规划能力的核心研究。
AIvilization v0: Toward Large-Scale Artificial Social Simulation with a Unified Agent Architecture and Adaptive Agent Profiles
Wenkai Fan, Shurui Zhang, Xiaolong Wang, Haowei Yang, Tsz Wai Chan et al.
香港科技大学 百度AI
9/10 2026-02-11 cs.MA PDF
AIvilization v0 是一个公开部署的大规模人工社会系统,结合了资源受限的沙盒经济与统一的LLM-智能体架构,旨在实现长期自主性并适应快速变化的环境。为缓解目标稳定性与反应正确性之间的矛盾,本文引入了三项关键技术:(i) 分层分支思考规划器,将生活目标分解为并行目标分支,并通过模拟引导验证和分级重规划确保可行性;(ii) 具有双过程记忆的自适应智能体配置,分离短期执行轨迹与长期语义整合,实现持久而演化的身份;(iii) 人机协同控制接口,在适当抽象层次注入长期目标和短指令,通过记忆传播而非脆弱的提示覆盖实现影响传递。该环境集成了生理生存成本、不可替代的多级生产体系、基于AMM的价格机制以及门控教育-职业系统。利用平台成熟阶段的高频交易数据,发现稳定的市场能够再现关键特征事实(重尾收益和波动聚集),并产生由教育和访问限制驱动的结构化财富分层。实验表明,简化规划器在窄任务中可匹配性能,而完整架构在多目标、长期设置下更具鲁棒性,支持延迟投资和持续探索。
agent planning long-horizon autonomy adaptive agent profiles artificial society simulation
论文重点介绍了用于长期目标分解和适应性规划的分层分支思考规划器,是规划能力的核心研究。
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan et al.
OPPO
9/10 2026-02-10 cs.CL PDF
长期规划被认为是基于LLM的自主代理的核心能力之一;然而,当前的评估框架大多具有片段化、领域特定或未能充分嵌入持续经济动态的特点。本文引入了EcoGym,这是一个用于交互经济中连续计划与执行决策的通用基准测试平台。EcoGym包含三个多样化的环境:自动售货、自由职业和运营,并通过统一的决策过程和标准化接口实现,支持在有效无界的时间范围内(如365天循环评估时超过1000步)进行预算化动作。EcoGym的评估基于商业相关结果(如净资产、收入和日活跃用户),旨在考察长期战略一致性及在部分可观测性和随机性条件下的鲁棒性。实验表明,目前没有单一模型能在所有三种场景中占据优势,且模型在高层策略或高效执行方面存在显著不足。EcoGym作为开源、可扩展的测试平台,可用于透明的长期代理评估,并研究现实经济环境中可控性与效用之间的权衡。
长期规划 交互经济 LLM评估 任务执行 基准测试
论文聚焦于长期规划能力的评估,提出EcoGym基准测试环境,直接关联到Agent的规划与执行能力。
Code
Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments
Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu et al.
School of Computer Science and Engineering & School of Software Engineering, Southeast University, Nanjing, China Pattern Learning and Mining Lab, Southeast University, Nanjing, China
9/10 2026-02-10 cs.RO PDF
机器人实验室在自主科学发现中起着关键作用,能够实现可扩展和连续的实验执行。尽管最近的视觉-语言-动作(VLA)模型为机器人实验室提供了良好的基础,但科学实验通常涉及由多个原子任务组成的长时序任务,这对现有VLA模型构成了根本性挑战。为了应对这一挑战,本文提出了一种用于科学实验长时序任务的智能体VLA推理插件。该插件引入了基于LLM的智能体推理机制,在执行顺序操作任务时进行干预,通过显式过渡推理生成过渡的机器人动作代码,从而引导VLA模型完成缺失的过渡步骤,无需额外训练即可可靠地执行复合科学工作流程。该方法计算效率高、数据效率高,适用于开放性和长时序的机器人实验室任务。我们在现有模拟环境中构建了科学仪器和常见科学操作场景的3D资产,并验证了该方法在推理过程中将每个原子任务的成功率平均提高了42%。此外,我们还展示了该方法可以轻松从模拟环境转移到真实科学实验室。
长时序任务 智能体推理 VLA模型 机器人实验室 任务规划
论文聚焦于解决科学实验中长时序任务的规划问题,提出基于LLM的代理推理机制以指导VLA模型完成复合任务。
PABU: Progress-Aware Belief Update for Efficient LLM Agents
Haitao Jiang, Lin Ge, Hengrui Cai, Rui Song
9/10 2026-02-09 cs.AI PDF
大型语言模型(LLM)代理通常基于完整的动作-观察历史进行决策,这引入了与任务无关的信息,容易导致冗余动作和更高的推理成本。本文提出了一种名为Progress-Aware Belief Update(PABU)的信念状态框架,该框架通过显式建模任务进度并选择性地保留过去动作和观察,来紧凑地表示代理的状态。在每一步中,代理预测自上一轮以来的相对进度,并决定是否存储新遇到的交互,仅基于保留的子集进行未来决策。在AgentGym基准测试的八个环境中,使用相同的训练轨迹,PABU实现了81.0%的任务完成率,比基于完整历史的最先进(SoTA)模型高出23.9%。此外,PABU的以进度为导向的动作选择提高了效率,将平均交互步骤数减少到9.5,减少了26.9%。消融研究表明,显式的进度预测和选择性保留对于鲁棒的信念学习和性能提升都是必要的。
任务规划 状态表示 高效推理 信念更新 LLM代理
论文聚焦于Agent在任务规划中的状态表示与动作选择,通过进度感知的信念更新提升效率。
From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection
Zilin Fang, Anxing Xiao, David Hsu, Gim Hee Lee
9/10 2026-02-09 cs.RO PDF
在人类环境中进行社交导航不仅需要满足几何约束,还需避免干扰正在进行的活动并符合社会规范。本文提出了一种结合几何规划与上下文社会推理的社交机器人导航框架。系统首先提取障碍物和人类动态以生成几何可行的候选路径,然后利用微调的视觉语言模型(VLM)评估这些路径,并根据情境化的社会期望选择最优路径。该任务特定的VLM将大型基础模型中的社会推理能力提炼为更小、更高效的模型,使框架能够在多样化的人机交互场景中实现实时适应。实验结果表明,该方法在四个社交导航场景中表现最佳,具有最低的个人空间侵犯时间、最少的面向行人时间以及无社交区域入侵。
机器人导航 社交规范 视觉语言模型 路径规划
论文核心研究了基于社会规范的路径规划,结合几何规划与社会推理,属于规划能力的核心内容。
Code
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery
Shiyang Feng, Runmin Ma, Xiangchao Yan, Yue Fan, Yusong Hu et al.
9/10 2026-02-09 cs.AI PDF
本文提出了一种名为InternAgent-1.5的统一系统,旨在实现计算和实证领域的端到端科学发现。该系统基于由生成、验证和进化三个子系统组成的结构化架构,并具备深度研究、解决方案优化和长期记忆等基础能力。该架构支持系统在长时间的发现周期中持续运行并保持行为的一致性和改进性,同时能够在单一系统内协调计算建模与实验室实验。我们在GAIA、HLE、GPQA和FrontierScience等科学推理基准上对InternAgent-1.5进行了评估,系统表现出色,展示了强大的基础能力。此外,我们还测试了两种类型的发现任务:算法发现任务中,InternAgent-1.5能够自主设计具有竞争力的方法解决核心机器学习问题;在实证发现任务中,它能够执行完整的计算或湿实验,并在地球、生命、生物和物理等领域产生科学发现。总体而言,这些结果表明InternAgent-1.5为自主科学发现提供了一个通用且可扩展的框架。
科学发现 智能体框架 长期记忆 任务规划 实验自动化
论文重点描述了InternAgent-1.5在长期科学发现中的自主规划与执行能力,涉及任务分解、多步骤实验设计和跨领域协调。
Code
A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents
Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.
9/10 2026-02-09 cs.LG PDF
理解代理的目标有助于解释和预测其行为,但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与模型内部表征可解释性分析的框架,用于评估代理的目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例,从行为上评估其在不同网格大小、障碍物密度和目标结构下的表现,发现其性能随任务难度增加而提升,并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探测方法解码代理对环境状态和多步行动计划的内部表征,发现该代理非线性地编码了一个粗略的空间地图,保留了与其位置和目标位置相关的任务相关线索;其行为与这些内部表征基本一致;推理过程则重新组织这些信息,从更广泛的环境结构线索转向支持即时行动选择的信息。研究结果表明,仅靠行为评估不足以描述代理如何表示和追求其目标,还需进行内省分析。
目标导向性 任务规划 内部表征分析 语言模型代理
论文重点研究了Agent的目标导向行为与多步计划生成,涉及任务规划和目标导向行为的评估。
Intermediate Results on the Complexity of STRIPS$_{1}^{1}$
Stefan Edelkamp, Jiří Fink, Petr Gregor, Anders Jonsson, Bernhard Nebel
9/10 2026-02-09 cs.AI PDF
本文基于Bylander关于命题STRIPS规划计算复杂性的研究成果。他证明了当仅允许使用地面文字时,即使操作符仅限于两个前提条件和两个后置条件,确定是否存在计划的问题也是PSPACE完全的。尽管NP难性已被确认,但尚不清楚具有仅一个前提条件和一个效果的操作符的命题STRIPS是否为NP完全。本文探讨了STRIPS$^1_1$的小规模解假设是否成立,通过调用SAT求解器处理小实例、引入文字图并将其映射到Petri网来分析该问题。
STRIPS规划 计算复杂性 任务规划 形式化方法 Petri网
论文聚焦于STRIPS规划的计算复杂性,直接涉及任务规划与多步计划生成的核心问题。
OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
Teng Wang, Rong Shan, Jianghao Lin, Junjie Wu, Tianyi Xu et al.
9/10 2026-02-09 cs.AI PDF
组合图像检索(CIR)需要在异构的视觉和文本约束下进行复杂推理。现有方法主要分为统一嵌入检索和启发式智能体检索两类,前者存在单模型近视问题,后者受限于次优的试错调度。为此,本文提出OSCAR,一种基于优化引导的智能体规划框架。首次将启发式搜索过程转化为轨迹优化问题,并采用离线-在线范式。在离线阶段,通过原子检索选择与组合建模为两阶段混合整数规划问题,数学推导出最大化真实覆盖度的最优轨迹,并存储为黄金库供在线推理时使用。实验表明,OSCAR在多个基准数据集上均优于现有方法,且仅需10%训练数据即可取得优异性能,体现了规划逻辑的强泛化能力。
智能体规划 组合图像检索 轨迹优化 混合整数规划
论文提出了一种基于优化的智能体规划框架,用于解决复杂图像检索问题,核心在于任务分解与多步规划。
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
Xin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin et al.
9/10 2026-02-09 cs.RO PDF
多模态大语言模型(MLLMs)在具身人工智能领域取得了显著进展,将其用于评估机器人智能已成为重要趋势。然而,现有框架主要局限于单臂操作,无法捕捉如提起重锅等双臂任务所需的时空协调性。为此,我们提出了BiManiBench,一个分层基准测试框架,从基础空间推理、高层动作规划和底层末端执行器控制三个层级评估MLLMs。该框架隔离了双臂操作的独特挑战,如手臂可达性和运动学约束,从而区分感知幻觉与规划失败。对30多个前沿模型的分析表明,尽管MLLMs在高层推理方面表现出色,但在双臂空间定位和控制方面仍存在困难,常导致相互干扰和时序错误。这些发现表明当前范式缺乏对互连运动学约束的深入理解,未来研究应重点关注双臂碰撞避免和精细时间序列控制。
双臂协调 动作规划 多模态大语言模型 机器人智能 运动学约束
论文聚焦于多模态大语言模型在双臂协调任务中的高层次动作规划与控制问题,直接涉及规划能力的核心研究。
Code
WorldTravel: A Realistic Multimodal Travel-Planning Benchmark with Tightly Coupled Constraints
Zexuan Wang, Chenghao Yang, Yingqi Que, Zhenzhu Yang, Huaqing Yuan et al.
ByteDance Seed Humanlaya Data
9/10 2026-02-09 cs.CL PDF
现实世界中的自主规划需要协调紧密耦合的约束条件,其中单一决策将决定所有后续动作的可行性。然而,现有基准主要包含可通过局部贪心决策解决的松散耦合约束,并依赖理想化数据,无法捕捉从动态网络环境中提取参数的复杂性。本文引入了WorldTravel,一个包含5个城市中150个现实旅行场景的基准,要求处理平均15个以上相互依赖的时间和逻辑约束。为评估代理在现实部署中的表现,我们开发了WorldTravel-Webscape,一个多模态环境,包含2000多个渲染网页,代理必须直接从视觉布局中感知约束参数以进行规划。对10个前沿模型的评估显示,即使最先进的GPT-5.2在纯文本设置下仅实现32.67%的可行性,在多模态环境下则骤降至19.33%。我们识别出关键的感知-行动差距以及约10个约束条件处的规划时间跨度阈值,表明感知和推理仍是独立瓶颈。这些发现突显了下一代代理统一高保真视觉感知与长时程推理以处理脆弱现实物流的需求。
多模态规划 约束满足 自主代理 现实基准
论文聚焦于多约束条件下的任务规划,强调复杂环境中的自主规划能力,与规划能力主题高度相关。
Dreaming in Code for Curriculum Learning in Open-Ended Worlds
Konstantinos Mitsides, Maxence Faldor, Antoine Cully
英国伦敦帝国理工学院计算机系
9/10 2026-02-09 cs.LG PDF
开放世界学习将智能视为从不断扩展的环境空间中持续交互中涌现。尽管近期研究利用基础模型生成多样化环境,但这些方法通常关注于发现孤立行为而非持续进步。在复杂的开放世界中,可能挑战的组合空间庞大,使得智能体难以发现持续可学习的经验序列。为此,我们提出DiCode框架,使基础模型合成可执行的环境代码以促进向更高能力的学习。在DiCode中,“梦境”表现为世界代码级别的变化。我们在Craftax基准上实现DiCode,该基准具有丰富的机制和长期进展特征。实验证明,DiCode使智能体能够获得长期技能,在平均回报上比最强基线提高16%,并在后期战斗任务中取得非零成功率,而此前方法无法完成。我们的结果表明,代码级别环境设计为课程控制提供了实用机制,有助于构建连接能力差距的中间环境。
课程学习 环境生成 长期规划 智能体训练
论文提出通过代码生成环境来引导智能体逐步学习复杂技能,属于任务规划与长期目标导向行为的核心研究。
Code
Agent Mars: Multi-Agent Simulation for Multi-Planetary Life Exploration and Settlement
Ziyang Wang
zhiyangwang@ieee.org
9/10 2026-02-09 cs.MA PDF
人工智能已在多个领域取得突破,但太空探索与定居仍面临通信延迟、资源稀缺等挑战。本文提出Agent Mars,一个开放的端到端多智能体模拟框架,用于模拟火星基地操作。该框架包含93个智能体,涵盖七个层级的指挥与执行结构,支持层级间协调、动态角色交接及任务依赖的领导力分配。此外,Agent Mars还建模了关键任务机制,如情景感知记忆、共识机制和异构协议翻译。通过引入Agent Mars性能指数(AMPI),论文量化了系统行为,并揭示了跨层级协作与功能领导对提高可靠性的作用。该框架为太空AI提供了可评估、可审计的基础。
多智能体系统 任务规划 跨层级协调 太空AI 系统仿真
论文重点研究多智能体在火星基地中的任务规划与协调机制,涉及层级结构、动态角色交接和领导力分配。
Optimized Human-Robot Co-Dispatch Planning for Petro-Site Surveillance under Varying Criticalities
Nur Ahmad Khatim, Mansur Arief
9/10 2026-02-08 cs.RO PDF
保障石油基础设施安全需要在自主系统效率与人类判断之间取得平衡,而传统设施选址模型假设资源同质化,无法解决这一问题。本文提出了人机协同调度设施选址问题(HRCD-FLP),该模型是容量约束设施选址问题的扩展,考虑了分层基础设施关键性、人机监督比例约束以及最低利用率要求。我们评估了三种技术成熟度场景下的指挥中心选择。结果表明,从保守模式(1:3人机监督)向未来自主操作(1:10)转变,可在保持关键基础设施全覆盖的同时显著降低成本。对于小规模问题,精确方法在成本和计算时间上占优;对于大规模问题,所提出的启发式算法能在3分钟内生成可行解,优化间隙约为14%。从系统角度看,我们的研究表明,优化的人机协同规划是实现成本效益与任务可靠性部署的关键。
人机协同 调度规划 设施选址 资源优化
论文聚焦于人机协同调度规划,涉及任务分配与资源优化,属于规划能力的核心研究。
Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition
Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier, Nicolas Dehandschoewercker et al.
9/10 2026-02-08 cs.AI PDF
本文提出Minitap,一种多智能体系统,在AndroidWorld基准测试中实现了100%的成功率,首次完全解决了所有116个任务,并超越了人类表现(80%)。我们首先分析了单智能体架构失败的原因:混合推理痕迹导致的上下文污染、未被智能体检测到的静默文本输入失败以及无法逃脱的重复动作循环。Minitap通过针对性机制解决这些问题:六个专门化智能体之间的认知分离、基于设备状态对文本输入进行确定性后验证,以及能够检测循环并触发策略变化的元认知推理。消融实验表明,多智能体分解相比单智能体基线提升了21个百分点;验证执行提升了7个百分点;元认知提升了9个百分点。我们发布了Minitap作为开源软件。
多智能体系统 任务分解 AndroidWorld 元认知推理 规划能力
论文聚焦于多智能体系统的任务分解与规划能力,以实现AndroidWorld基准的完美成功率。
Code
AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing
Jianda Du, Youran Sun, Haizhao Yang
马里兰大学数学系 马里兰大学计算机科学系
8/10 2026-02-19 cs.AI PDF
偏微分方程(PDEs)是科学和工程建模的核心,但设计精确的数值求解器通常需要大量的数学专业知识和手动调优。最近基于神经网络的方法提高了灵活性,但往往需要较高的计算成本并缺乏可解释性。本文提出了一种名为AutoNumerics的多智能体框架,能够直接从自然语言描述中自主设计、实现、调试和验证通用PDE的数值求解器。与黑箱神经求解器不同,该框架生成的求解器基于经典数值分析,具有透明性。我们引入了粗到细的执行策略和基于残差的自验证机制。在24个经典和现实世界PDE问题上的实验表明,AutoNumerics在准确性上优于现有的神经网络和LLM基线方法,并能根据PDE结构特性正确选择数值格式,表明其作为自动化PDE求解范式的可行性。
多智能体系统 数值求解器 科学计算 任务规划 自动验证
论文提出多智能体框架自主设计、实现、调试和验证数值求解器,涉及任务规划与目标导向行为。
Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery
Jowaria Khan, Anindya Sarkar, Yevgeniy Vorobeychik, Elizabeth Bondi-Kelly
密歇根州立大学,美国
8/10 2026-02-19 cs.CV PDF
在许多现实场景中,如环境监测、灾害响应或公共卫生,由于数据收集成本高且环境动态变化,战略性地从未观测区域采样对于在资源受限条件下高效发现隐藏目标至关重要。然而,稀疏且有偏的地理空间真实标签限制了现有基于学习的方法(如强化学习)的应用。为解决这一问题,本文提出了一种统一的地理空间发现框架,整合了主动学习、在线元学习和概念引导推理。该方法基于“概念相关性”这一核心思想,引入了两个关键创新:一种基于领域特定概念(如土地覆盖、源接近度)的“概念加权不确定性采样策略”,以及一种促进在线元更新过程中语义多样性的“相关性感知元批次形成策略”。实验部分使用了真实世界的数据集,测试了该方法在有限数据和动态环境下发现目标的可靠性。
active learning meta-learning geospatial discovery target detection resource-constrained environments
论文提出了一种结合主动学习和在线元学习的框架,用于动态环境中的目标发现,涉及任务规划与策略调整。
LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation
Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany et al.
美国加州大学戴维斯分校
8/10 2026-02-18 cs.AI PDF
执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式,但由于此类反馈通常昂贵且获取缓慢,在线强化学习(RL)往往不切实际。高覆盖率的硬件验证正是这一挑战的典型例子,因其依赖工业模拟器和非微分执行信号。本文提出LLM4Cov,一种离线智能体学习框架,将验证建模为由确定性评估器引导的记忆无关状态转移。在此基础上,我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样,以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议,从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程,一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率,优于其教师模型5.3%,并表现出与大一数量级模型相当的竞争力。
强化学习 智能体学习 测试生成 硬件验证
论文聚焦于基于执行反馈的智能体学习,涉及任务规划与目标导向行为。
Code
AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks
Tanqiu Jiang, Yuhui Wang, Jiacheng Liang, Ting Wang
美国斯托克布鲁克大学计算机科学系
8/10 2026-02-18 cs.AI PDF
随着LLM代理被部署到长期、复杂的环境中以解决具有挑战性的问题,它们也面临着利用多轮用户-代理-环境交互实现单轮设置中不可行目标的长期攻击。为衡量代理对这些风险的脆弱性,本文提出了AgentLAB,这是首个专门用于评估LLM代理对自适应长期攻击易感性的基准测试。目前,AgentLAB支持五种新型攻击类型,包括意图劫持、工具链、任务注入、目标漂移和记忆中毒,并覆盖28个现实的代理环境以及644个安全测试用例。通过AgentLAB,我们评估了代表性LLM代理,发现它们对长期攻击仍高度易感;此外,针对单轮交互设计的防御措施无法有效缓解长期威胁。我们预期AgentLAB将成为跟踪实际场景中LLM代理安全进展的重要基准。
LLM agents 长期攻击 安全评估 任务规划 基准测试
论文聚焦于LLM agents在长期复杂环境中的规划能力及安全性,涉及任务分解与目标导向行为。
Code
EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments
Sushant Mehta, Logan Ritchie, Suhaas Garre, Nick Heiner, Edwin Chen
Surge AI
8/10 2026-02-18 cs.AI PDF
本文展示了在高保真强化学习环境中训练AI智能体可以产生超越训练分布的泛化能力。我们引入了CoreCraft,这是EnterpriseBench套件中的第一个环境,由Surge AI开发。CoreCraft是一个完全运作的企业级客户支持组织模拟环境,包含超过2500个实体和23种独特工具,旨在评估AI智能体是否能够完成真实工作中所需的多步骤、领域特定的任务。前沿模型如GPT-5.2和Claude Opus 4.6在满足所有专家制定的评分标准时,任务完成率低于30%。通过使用Group Relative Policy Optimization(GRPO)和自适应裁剪方法训练GLM 4.6模型,在单个训练周期后,其在保留测试任务上的任务通过率从25.37%提升至36.76%。更重要的是,这些改进也转移到了分布外基准测试中。我们认为环境的三个特性与观察到的迁移效果一致:以多样化、具有挑战性的任务为中心的世界构建;专家制定的评分标准使奖励计算更加可靠;以及反映现实职业模式的企业工作流程。我们的结果表明,环境的质量、多样性和真实性是实现可泛化智能体能力的关键因素。
强化学习 任务规划 企业模拟 智能体训练 泛化能力
论文重点研究了Agent在复杂企业环境中的任务规划与执行能力,涉及多步骤、领域特定工作的完成。
Orchestration-Free Customer Service Automation: A Privacy-Preserving and Flowchart-Guided Framework
Mengze Hong, Chen Jason Zhang, Zichang Guo, Hanlin Gu, Di Jiang et al.
香港理工大学 阿里集团,网商银行
8/10 2026-02-17 cs.CL PDF
随着数字化转型的推进,客户服务自动化需求日益增长。现有方法要么依赖模块化系统设计与大量代理编排,要么采用过于简化的指令模式,提供有限的指导和较差的通用性。本文提出了一种无需编排的框架,利用面向任务的流程图(TOFs)实现端到端自动化,无需人工干预。我们首先定义了TOFs的组件和评估指标,然后形式化了一个高效的流程图构建算法,以从服务对话中抽象出过程性知识。我们强调小型语言模型的本地部署,并提出结合流程图的去中心化蒸馏方法,以缓解训练中的数据稀缺和隐私问题。大量实验验证了该框架在多种服务任务中的有效性,其定量和应用表现优于强基线和市场产品。通过发布一个基于网络的系统演示和案例研究,旨在推动未来服务自动化的高效创建。
客户服务自动化 流程图引导 任务规划 隐私保护 小语言模型
论文提出基于流程图的自动化框架,用于任务导向的客户服务规划,属于规划能力的核心研究。
Code
EAA: Automating materials characterization with vision language model agents
Ming Du, Yanqi Luo, Srutarshi Banerjee, Michael Wojcik, Jelena Popovic et al.
Argonne National Laboratory
8/10 2026-02-17 cs.AI PDF
本文提出了一种由视觉语言模型驱动的代理系统——实验自动化代理(EAA),旨在自动化复杂的显微实验流程。EAA集成了多模态推理、工具增强动作和可选的长期记忆功能,支持自主操作和用户引导测量。该系统基于灵活的任务管理架构,能够实现从完全代理驱动的自动化到嵌入局部LLM查询的逻辑定义流程。此外,EAA提供了一个现代工具生态系统,支持Model Context Protocol(MCP)的双向兼容性,使仪器控制工具能够在不同应用中被调用或服务。我们在先进光子源的成像光束线上展示了EAA的应用,包括自动聚焦区板、自然语言描述的特征搜索以及交互式数据采集。这些结果表明,具备视觉能力的代理可以提高光束线效率,减轻操作负担,并降低用户的专业知识门槛。
实验自动化 视觉语言模型 任务规划 多模态推理 仪器控制
论文重点描述了EAA系统在自动化实验流程中的任务规划与执行能力,涉及多步骤工作流管理与用户交互。
WebWorld: A Large-Scale World Model for Web Agent Training
Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li et al.
Qwen Team, Alibaba Group Zhejiang University
8/10 2026-02-16 cs.AI PDF
Web代理需要大量轨迹数据以实现泛化,但现实世界的训练受到网络延迟、速率限制和安全风险的制约。本文引入了WebWorld系列,这是首个在大规模开放网络上训练的开源模拟器。与现有仅限于封闭环境且仅有数千条轨迹的模拟器不同,WebWorld利用可扩展的数据管道,在100万+开放网络交互中进行训练,支持推理、多格式数据以及30步以上的长时序模拟。在内在评估中,我们引入了涵盖九个维度的WebWorld-Bench,WebWorld在此基准上的表现与Gemini-3-Pro相当。在外在评估中,基于WebWorld生成的轨迹训练的Qwen3-14B在WebArena上提升了9.2%,性能接近GPT-4o。WebWorld在推理时搜索方面表现出色,作为世界模型优于GPT-5。此外,WebWorld还展示了跨领域泛化能力,适用于代码、GUI和游戏环境,为世界模型的构建提供了一种可复制的方法。
web agent world model simulation environment long-horizon planning large-scale training
论文聚焦于WebAgent的训练环境构建,强调长时序模拟和任务规划能力,与规划能力密切相关。
Code
Structure-Aware Piano Accompaniment via Style Planning and Dataset-Aligned Pattern Retrieval
Wanyu Zang, Yang Yu, Meng Yu
计算机科学, 伦斯勒理工学院 Nexus Art Foundation 计算机科学, 佐治亚州立大学
8/10 2026-02-16 cs.SD PDF
本文提出了一种结构感知的符号化钢琴伴奏方法,将高层规划与音符级实现解耦。一个轻量级的Transformer模型根据段落/短语结构和功能和声预测可解释的每小节风格计划,然后检索器从语料库中选择并重新和声化人类演奏的钢琴模式。我们将检索建模为在显式能量函数下的模式匹配,包含和声可行性、结构角色兼容性、声部连续性、风格偏好和重复控制等项。给定结构化的乐谱和可选的关键字提示,系统生成钢琴伴奏MIDI文件。实验表明,由Transformer风格规划器引导的检索能够生成具有强风格表现力的多样化长篇伴奏。我们进一步分析了规划器的消融实验,并量化了跨风格隔离效果。实验结果验证了该推理时方法在钢琴伴奏生成中的有效性。
音乐生成 风格规划 模式检索 钢琴伴奏 Transformer
论文提出结构感知的钢琴伴奏方法,强调高层规划与具体实现分离,符合规划能力主题。
ResearchGym: Evaluating Language Model Agents on Real-World AI Research
Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
TCS Research Yale University
8/10 2026-02-16 cs.AI PDF
本文介绍了ResearchGym,一个用于评估AI代理在端到端研究任务中的基准和执行环境。通过复用ICML、ICLR和ACL会议的五篇论文,构建了包含39个子任务的五个容器化任务环境。代理需提出新假设、运行实验并超越人类基线。实验显示,基于GPT-5的代理仅在15次评估中有6.7%的提升,并完成26.5%的子任务,暴露了长期规划和资源管理等缺陷。尽管如此,代理偶尔能达到前沿性能。研究还评估了Claude Code和Codex等专有代理框架,发现类似差距。ResearchGym为自主代理在闭环研究中的系统评估提供了基础设施。
agent evaluation research automation task planning LLM benchmarking
论文重点评估Agent在端到端研究任务中的规划与执行能力,涉及任务分解、实验设计与目标导向行为。
ReusStdFlow: A Standardized Reusability Framework for Dynamic Workflow Construction in Agentic AI
Gaoyang Zhang, Shanghong Zou, Yafang Wang, He Zhang, Ruohua Xu et al.
Accenture Information Technology, SGITG 2Kexin Technology, CNPIEC
8/10 2026-02-16 cs.AI PDF
为了解决企业级Agentic AI中的“可重用性困境”和结构幻觉问题,本文提出ReusStdFlow框架,该框架基于新颖的“提取-存储-构建”范式。该框架将异构、平台特定的领域专用语言(DSL)解构为标准化、模块化的工作流片段,并采用集成图数据库和向量数据库的双重知识架构,实现拓扑结构与功能语义的协同检索。最后,通过检索增强生成(RAG)策略智能组装工作流。在200个真实世界的n8n工作流上测试,系统在提取和构建任务中均达到超过90%的准确率。该框架为企业数字资产的自动化重组和高效复用提供了标准化解决方案。
工作流构建 可重用性 RAG DSL解构 Agentic AI
论文聚焦于动态工作流构建,涉及任务分解与智能组装,属于规划能力的核心研究。
Zero-Shot Instruction Following in RL via Structured LTL Representations
Mathias Jackermeier, Mattia Giuri, Jacques Cloete, Alessandro Abate
牛津大学机器人研究所,牛津大学计算机科学系
8/10 2026-02-15 cs.LG PDF
本文研究了多任务强化学习中的指令遵循问题,其中智能体需要在训练中未见过的新任务上实现零样本执行。线性时序逻辑(LTL)已被作为描述结构化、时间扩展任务的强大框架引入。尽管现有方法能够训练通用策略,但往往难以有效捕捉LTL规范中固有的丰富逻辑和时间结构。为此,本文提出了一种新颖的方法来学习结构化任务表示,以促进训练和泛化能力。该方法将策略条件化为从任务有限自动机构建的布尔公式序列,并提出了一种分层神经网络架构来编码这些公式的逻辑结构,同时引入注意力机制使策略能够推理未来的子目标。实验表明,该方法在多种复杂环境中表现出强大的泛化能力和优越性能。
强化学习 任务规划 LTL 零样本学习 注意力机制
论文聚焦于基于结构化LTL表示的零样本任务执行,涉及任务规划与未来子目标推理。
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions
Ruomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel et al.
北卡罗来纳大学教堂山分校 哥伦比亚大学 内盖夫本·古里安大学
8/10 2026-02-15 cs.LG PDF
从调查和其他集体评估中获取信息以减少对潜在群体属性的不确定性,需要在真实成本和数据缺失的情况下合理分配有限的提问资源。尽管大语言模型支持自然语言中的自适应多轮交互,但现有方法通常固定受访人群,无法根据部分或缺失的回答进行调整。为此,本文研究了自适应群体信息获取问题,在明确的查询和参与预算下,代理自适应地选择问题和受访者。我们提出了一种理论支撑的框架,结合基于LLM的预期信息增益目标来评分候选问题,并利用异构图神经网络传播技术聚合观察到的回答和参与者属性,以填补缺失回答并指导每轮受访者的选取。该闭环过程在小规模、信息量大的个体样本上进行查询,同时通过结构化相似性推断群体层面的回答。在三个真实世界意见数据集上的实验表明,我们的方法在受限预算下显著提升了群体层面的回答预测效果,包括在10%受访者预算下CES指标相对提升超过12%。
群体信息获取 自适应交互 图神经网络 资源分配
论文研究了在有限预算下如何通过多轮交互选择问题和受访者,属于任务规划与资源分配的核心内容。
Code
Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval
Linlin Wang, Tianqing Zhu, Laiqiao Qin, Longxiang Gao, Wanlei Zhou
中国科学技术大学计算机科学与技术学院
8/10 2026-02-14 cs.AI PDF
随着大型语言模型在推理、规划和复杂任务生成方面的突破,人工智能系统正从孤立的单智能体架构转向具有协作智能的多智能体系统。然而,在异构多智能体系统(HMAS)中,智能体能力差异导致持续的认知问题,强弱模型难以有效贡献。本文将协作定义为强弱系统,并通过实验揭示了一个反直觉现象:强弱协作可能表现不如弱弱组合,表明认知不匹配是限制异构协作的关键瓶颈。为此,我们提出了一种基于熵的自适应引导框架,该框架通过多维熵度量量化弱智能体的理解水平,并根据其认知状态动态调整引导强度。此外,引入了检索增强生成(RAG)机制,保留成功的协作经验,实现即时适应和长期学习。在GSM8K、MBPP和CVRP三个基准数据集上的广泛实验表明,我们的方法显著提升了异构协作的有效性和稳定性。结果表明,自适应引导不仅缓解了认知不平衡,还为更稳健的多智能体协作智能提供了可扩展路径。
多智能体协作 自适应引导 熵度量 RAG机制 异构系统
论文聚焦于多智能体系统中的协作规划问题,提出动态指导框架以提升异构系统的任务执行效果。
Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation
Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Creighton Glasscock, Honglak Lee
LG AI Research
8/10 2026-02-13 cs.AI PDF
本文提出了一种可扩展的管道,用于自动生成高质量的网络代理训练数据。识别高质量训练实例的主要挑战在于轨迹评估——量化任务完成的进展程度。我们引入了一种基于约束的评估框架,能够对任务完成的进展进行细粒度评估。这使得我们可以利用部分成功的轨迹,显著扩大可用训练数据量。我们在提出的名为BookingArena的新基准上评估了该方法,该基准包含20个流行网站上的复杂预订任务。实验表明,我们的蒸馏学生模型在性能上优于开源方法,并匹配或超越商业系统,同时模型规模显著更小。本研究解决了高效创建多样化、真实网络交互数据集的挑战,并为复杂结构化网络任务提供了系统的评估方法。
web agent trajectory evaluation data generation fine-grained assessment task planning
论文聚焦于任务规划中的轨迹评估与数据生成,直接关联Agent的规划能力提升。
Intent-Driven Smart Manufacturing Integrating Knowledge Graphs and Large Language Models
Takoua Jradi, John Violos, Dimitrios Spatharakis, Lydia Mavraidi, Ioannis Dimolitsas et al.
Department of Software and IT Engineering, École de technologie supérieure, Montreal, Canada School of Electrical & Computer Engineering, National Technical University of Athens
8/10 2026-02-12 cs.AI PDF
随着智能制造环境复杂性的增加,需要能够将高层人类意图转化为机器可执行操作的接口。本文提出了一种统一框架,结合指令微调的大语言模型(LLMs)与本体对齐的知识图谱(KGs),以实现制造即服务(MaaS)生态系统中的意图驱动交互。我们对Mistral-7B-Instruct-V02在特定领域数据集上进行微调,使其能够将自然语言意图转化为结构化的JSON需求模型。这些模型通过语义映射到基于Neo4j的知识图谱,并以ISA-95标准为基础,确保与制造流程、资源和约束的操作一致性。实验结果表明,该方法在零样本和三样本基线模型上表现出显著性能提升,达到89.33%的精确匹配准确率和97.27%的整体准确率。这项工作为可扩展、可解释和自适应的人机交互奠定了基础。
智能制造 意图识别 知识图谱 大语言模型 任务规划
论文聚焦于将高层意图转化为可执行操作,涉及任务规划与目标导向行为。
Policy4OOD: A Knowledge-Guided World Model for Policy Intervention Simulation against the Opioid Overdose Crisis
Yijun Ma, Zehong Wang, Weixiang Sun, Zheyuan Zhang, Kaiwen Shi et al.
清华大学 郑州大学 威斯康星大学密尔沃基分校
8/10 2026-02-12 cs.LG PDF
阿片类药物危机仍是美国最严重的公共卫生问题之一,但在实施前评估政策干预效果具有挑战性。本文提出Policy4OOD,一种知识引导的时空世界模型,旨在解决政策干预模拟中的三个核心问题:政策规定了哪些内容、影响在何处显现以及何时发生。该模型整合了政策知识图谱、州级空间依赖关系和社会经济时间序列数据,通过条件Transformer进行未来阿片类药物使用结果的预测。训练后,该模型可作为模拟器,支持反事实分析和基于蒙特卡洛树搜索的政策优化。实验表明,空间依赖性和结构化政策知识显著提升了预测准确性,验证了世界建模在数据驱动公共卫生决策支持中的潜力。
政策模拟 世界模型 反事实推理 公共卫生决策
论文聚焦于政策干预模拟与规划,涉及未来预测、反事实推理和优化策略,属于规划能力的核心研究。
Intrinsic Credit Assignment for Long Horizon Interaction
Ilze Amanda Auzina, Joschka Strüber, Sergio Hernández-Gutiérrez, Shashwat Goel, Ameya Prabhu et al.
Tubingen AI Center, University of Tübingen ELLISS Institute Tübingen
8/10 2026-02-12 cs.LG PDF
如何训练智能体在长期不确定性环境中进行导航?本文提出了ΔBelief-RL方法,该方法利用语言模型自身的内在信念来奖励中间进展。通过使用智能体对目标解决方案概率变化来进行信用分配,ΔBelief-RL在合成交互数据上进行训练,教授信息检索能力,其表现优于纯粹基于结果的强化学习奖励机制,并且改进效果可推广到客户服务、个性化等分布外应用中。值得注意的是,随着测试时交互范围超出训练范围,性能持续提升,交互效率在Pass@k指标上也有所提高。总体而言,本研究引入了一种可扩展的训练策略,通过内在ΔBelief奖励实现对长期不确定性环境的导航。
强化学习 长期规划 内在奖励 信用分配 智能体训练
论文提出了一种基于内在信念的强化学习方法,用于长期任务中的信用分配和规划。
Code
AgenticShop: Benchmarking Agentic Product Curation for Personalized Web Shopping
Sunghwan Kim, Ryang Heo, Yongsik Seo, Jinyoung Yeo, Dongha Lee
韩国人工智能研究院 首尔大学
8/10 2026-02-12 cs.IR PDF
随着电子商务的快速发展,网络购物平台已成为消费者在数字市场中导航的关键入口。然而,这种快速扩张也导致了信息环境的嘈杂与碎片化,增加了用户在线探索和购买商品时的认知负担。代理系统在自动化用户端任务方面展现出巨大潜力,但现有基准测试未能全面评估其在开放网络环境中进行商品推荐的能力。为此,本文提出AgenticShop,这是首个用于评估代理系统在开放网络环境中进行个性化商品推荐的基准测试。该方法包含真实的购物场景、多样的用户画像以及可验证的个性化评估框架。通过大量实验,我们发现当前代理系统仍存在较大不足,突显了开发能够有效跨现代网络推荐定制化商品的用户端系统的重要性。
agent product curation personalization benchmarking web shopping
论文聚焦于Agent在开放网络环境中进行个性化商品推荐的规划与任务执行能力,涉及任务分解和目标导向行为。
Code
Accelerating Robotic Reinforcement Learning with Agent Guidance
Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang et al.
Institute for Artificial Intelligence, Peking University PKU-PuBot Joint Lab
8/10 2026-02-12 cs.RO PDF
强化学习(RL)为自主机器人通过试错掌握通用操作技能提供了强大范式。然而,其实际应用受到样本效率低下的严重限制。尽管最近的人机交互(HIL)方法通过人类纠正加速了训练,但这种方法面临可扩展性瓶颈。依赖人工监督者导致1:1的监督比例,限制了机器人舰队的扩展,并因操作员疲劳和人类能力不一致而引入高方差。本文提出了一种名为Agent-guided Policy Search(AGPS)的框架,通过多模态智能体替代人工监督者来自动化训练流程。我们的核心观点是,智能体可以被视为语义世界模型,通过注入内在价值先验来结构化物理探索。通过使用可执行工具,智能体提供精确的修正航路点和空间约束以进行探索剪枝。我们在两个任务上验证了该方法,从精密插入到可变形物体操作。结果表明,AGPS在样本效率方面优于HIL方法。这自动化了监督流程,为无劳动、可扩展的机器人学习铺平了道路。
强化学习 机器人学习 智能体引导 探索优化 任务规划
论文提出Agent指导的策略搜索框架,用于优化机器人强化学习中的探索与规划过程。
Code
Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy
Andrei Kojukhov, Arkady Bovshover
8/10 2026-02-12 cs.CR PDF
当前由人工智能驱动的网络安全系统主要以模型为中心,优化任务级性能指标如准确性和响应延迟。尽管这些系统在有限分类任务中有效,但在对抗性不确定性下难以实现可问责的决策。本文主张将网络安全编排重新构想为一个智能代理的多代理认知系统,而非简单的检测与响应流程。我们引入了一个概念性框架,其中负责检测、假设形成、上下文解释、解释和治理的异构AI代理通过显式的元认知判断函数进行协调。该函数在证据不完整、冲突或操作风险较高时动态调整系统自主性。通过整合分布式认知理论、多代理系统研究和负责任的人工智能治理框架,我们证明现代安全运营实际上已作为分布式认知系统运行,但缺乏明确的组织原则。我们的贡献是使这种认知结构在架构上显式化并可治理,通过将元认知判断作为核心系统功能嵌入其中。我们讨论了对安全运营中心、可问责自主性和下一代人工智能赋能的网络防御架构设计的影响。所提出的框架将人工智能在网络安全中的重点从优化孤立预测转向在不确定性下的自主治理。
网络安全 多代理系统 元认知 自主治理 任务规划
论文提出了一种基于代理的架构,强调在不确定环境下协调多个AI代理进行决策和规划,符合规划能力的研究主题。
Distributionally Robust Cooperative Multi-Agent Reinforcement Learning via Robust Value Factorization
Chengrui Qu, Christopher Yeh, Kishan Panaganti, Eric Mazumdar, Adam Wierman
Caltech Tencent AI Lab
8/10 2026-02-11 cs.AI PDF
协作多智能体强化学习(MARL)通常采用集中训练与分散执行的框架,其中价值分解方法强制执行个体全局最大(IGM)原则,使分散的贪心动作恢复团队最优联合动作。然而,在现实环境中,由于仿真到现实的差距、模型不匹配和系统噪声等因素,该方法的可靠性存在问题。本文引入分布鲁棒IGM(DrIGM)原则,要求每个智能体的鲁棒贪心动作与其团队最优联合动作对齐。我们证明了DrIGM适用于一种新的鲁棒个体动作值定义,并且兼容分散贪心执行,为整个系统提供可证明的鲁棒性保证。在此基础上,我们推导出符合DrIGM原则的现有价值分解架构(如VDN/QMIX/QTRAN)的鲁棒变体,这些变体(i)基于鲁棒Q目标进行训练,(ii)保持可扩展性,(iii)能够无缝集成到现有代码库中,无需针对每个智能体进行奖励塑造。实验表明,在高保真SustainGym模拟器和StarCraft游戏环境中,我们的方法显著提升了分布外性能。
multi-agent reinforcement learning robust optimization value factorization decentralized execution
论文聚焦于多智能体协作中的任务规划与决策机制,提出鲁棒价值分解方法以提升系统在不确定环境下的性能。
Code
Beyond Context Sharing: A Unified Agent Communication Protocol (ACP) for Secure, Federated, and Autonomous Agent-to-Agent (A2A) Orchestration
Naveen Kumar Krishnan
8/10 2026-02-11 cs.MA PDF
在人工智能领域,随着从孤立的大语言模型向具备复杂推理和工具使用的自主Agent的转变,跨平台、去中心化和安全交互仍然是实现真正Agentic Web的主要障碍。本文基于AI Agent架构和多Agent协调的模型上下文协议(MCP),提出了一种统一的Agent通信协议(ACP)。ACP为Agent到Agent(AA)交互提供了一个标准化框架,使异构Agent能够在不同环境中发现、协商并执行协作工作流。我们提出了一种联邦编排模型,整合了去中心化身份验证、语义意图映射和自动化服务级别协议。评估结果表明,ACP在保持零信任安全态势的同时,显著降低了Agent间通信的延迟。这项工作是构建可扩展且互操作的自主数字实体生态系统的重要进展。
Agent通信 联邦编排 多Agent协作 去中心化身份验证 任务规划
论文聚焦于Agent间的协作与任务执行,涉及跨平台、去中心化的规划与协调机制。
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion
Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan et al.
华为技术有限公司
8/10 2026-02-11 cs.AI PDF
智能体编程需要智能体能够有效与运行时环境(如命令行界面)交互,以完成诸如解决依赖问题、修复系统问题等任务。然而,如何在大规模上获取此类环境密集型任务以提升智能体能力仍是一个未被充分探索的问题。为此,本文基于Dockerfile与智能体任务之间的类比,提出利用智能体模拟和探索环境历史,并通过执行反馈进行引导。通过追踪健康环境的历史状态,将其逆向为存在运行时故障的早期状态,并将错误状态及对应错误信息打包生成任务。该方法命名为CLI-Gym,共生成1,655个环境密集型任务,是同类任务的最大集合。此外,结合精心整理的成功轨迹,本文提出的微调模型LiberCoder在Terminal-Bench基准测试中实现了显著的绝对提升(+21.1%,达到46.1%),优于多种强基线模型。据我们所知,这是首个公开的环境密集型任务可扩展生成管道。
环境逆向 任务生成 智能体规划 CLI交互 强化学习
论文聚焦于通过环境逆向生成任务,用于增强Agent的规划与执行能力,属于规划能力的核心研究。
Code
Affordances Enable Partial World Modeling with LLMs
Khimya Khetarpal, Gheorghe Comanici, Jonathan Richens, Jeremy Shar, Fei Xia et al.
Google Deepmind
8/10 2026-02-11 cs.LG PDF
完整的世界模型需要复杂的知识细节。尽管预训练大模型因在大规模互联网数据上的训练而被认为包含类似知识,但直接使用它们进行搜索效率低下且不准确。相反,部分模型专注于对状态和动作子集进行高质量预测,这些状态和动作通过可操作性实现用户意图。本文正式提出,能够实现任务无关、语言条件化意图的智能体必然拥有由可操作性引导的部分世界模型。在多任务设置中,我们引入分布鲁棒的可操作性,并证明可以从部分模型中提取信息显著提高搜索效率。实验结果表明,在桌面机器人任务中,基于可操作性的部分模型相比完整世界模型能减少搜索分支因子并获得更高奖励。
部分世界模型 可操作性 任务规划 LLM应用
论文聚焦于通过affordances构建部分世界模型以提升任务规划效率,直接关联到Agent的规划能力。
SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents
Zhirui Zhang, Hongbo Zhang, Haoxiang Fei, Zhiyuan Bao, Yubin Chen et al.
香港科技大学计算机科学与工程系
8/10 2026-02-10 cs.SE PDF
尽管大型语言模型(LLMs)已展现出卓越的编程能力,但其从明确规范中自主构建生产级软件的能力仍是一个开放问题。本文介绍了SWE-AGI,一个用于评估端到端、规范驱动的MoonBit软件系统构建的开源基准。SWE-AGI任务要求基于LLM的代理严格依据权威标准和RFC,在固定API框架下实现解析器、解释器、二进制解码器和SAT求解器。每个任务需要实现1000至10000行核心逻辑,相当于经验丰富的开发人员数周或数月的工作量。通过利用新兴的MoonBit生态系统,SWE-AGI减少了数据泄露,迫使代理依赖长期架构推理而非代码检索。实验表明,gpt-5.3-codex在22项任务中完成19项(86.4%),优于claude-opus-4.6(68.2%)。随着任务难度增加,性能显著下降,尤其是在复杂规范密集型系统上。行为分析进一步揭示,随着代码库规模扩大,代码阅读而非编写成为AI辅助开发的主要瓶颈。总体而言,虽然规范驱动的自主软件工程日益可行,但在可靠支持生产级开发之前仍面临重大挑战。
软件工程 自主代理 规范驱动 任务规划 MoonBit
论文聚焦于基于规范的软件构建,涉及任务规划、多步逻辑实现与架构推理,属于规划能力的核心研究。
Code
Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems
Yexin Li, Jinjin Guo, Haoyu Zhang, Yuhan Zhao, Yiwen Sun et al.
State Key Laboratory of General Artificial Intelligence, BIGAI, Beijing, China Beijing Technology and Business University, Beijing, China Peking University, Beijing, China
8/10 2026-02-10 cs.MA PDF
多智能体强化学习(MARL)为协调多智能体系统(MAS)提供了一个有前景的范式。然而,现有方法通常依赖于限制性假设,如固定数量的智能体和完全同步的动作执行。这些假设在城市系统中经常被违反,因为活跃智能体的数量随时间变化,动作可能具有异构持续时间,从而形成半MARL设置。此外,尽管共享策略参数可以提高学习效率,但可能导致部分智能体在相似观察下同时决策时产生高度同质化的动作,从而降低协调质量。为了解决这些问题,我们提出了自适应价值分解(AVD),一种能够适应动态变化智能体群体的协作MARL框架。AVD进一步引入了一种轻量级机制,以缓解由共享策略引起的动作同质化问题,从而鼓励行为多样性并保持智能体之间的有效合作。此外,我们设计了一种针对半MARL环境的训练-执行策略,以适应不同时间点进行决策的异步行为。在伦敦和华盛顿特区两个主要城市的实际共享单车再分配任务中的实验表明,AVD优于最先进的基线方法,证明了其有效性和通用性。
多智能体强化学习 动态协调 异步决策 行为多样性
论文聚焦于多智能体系统的协调与规划,提出适应动态变化的框架以提升协作效率。
When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents
Yuting Ning, Jaylen Jones, Zhehao Zhang, Chentao Ye, Weitong Ruan et al.
8/10 2026-02-09 cs.CL PDF
在过去一年中,计算机使用代理(CUAs)取得了显著进展,但它们仍经常产生偏离用户原始意图的偏差行为。这些偏差行为可能源于外部攻击(如间接提示注入)或内部限制(如错误推理)。这不仅使CUAs面临安全风险,还降低了任务效率和可靠性。本文首次定义并研究了CUAs中的偏差行为检测,全面覆盖了由外部因素和内部因素引起的偏差行为。我们进一步识别了现实世界中CUA部署中的三种常见类别,并构建了MisActBench,这是一个包含人工标注、动作级对齐标签的真实轨迹基准。此外,我们提出了DeAction,一种实用且通用的防护机制,能够在执行前检测偏差行为,并通过结构化反馈迭代纠正它们。在离线和在线评估中,DeAction均优于所有现有基线,具有适度的延迟开销。
任务规划 偏差检测 计算机使用代理 安全防护
论文聚焦于检测和纠正计算机使用代理中的偏离任务行为,涉及任务规划与执行的一致性问题。
Code
Digital Twin and Agentic AI for Wild Fire Disaster Management: Intelligent Virtual Situation Room
Mohammad Morsali, Siavash H. Khajavi
[
8/10 2026-02-09 cs.AI PDF
根据联合国数据,由于全球变暖,野火的发生频率和强度预计到2030年将增加约14%,到2050年将增加30%,对生命、基础设施和生态系统构成严重威胁。传统灾害管理框架依赖静态模拟和被动数据采集,难以适应实时变化的野火事件。为此,本文提出了一种名为智能虚拟指挥室(IVSR)的双向数字孪生平台,该平台结合自主AI代理,持续整合多源传感器图像、天气数据和三维森林模型,构建火灾环境的实时虚拟副本。通过AI驱动的相似性引擎,将新出现的情况与预计算的灾难模拟库进行匹配,并在专家监督下检索和校准干预策略。授权操作(如无人机重新部署和人员调配)通过标准化流程反馈至物理层,完成响应与分析之间的闭环。通过工业合作伙伴提供的详细案例研究模拟验证了IVSR的能力,包括局部事件检测、隐私保护回放、基于碰撞器的火势扩散预测以及特定地点的机器学习再训练。结果表明,IVSR显著减少了从检测到干预的延迟,并比传统系统更有效地协调资源。通过将实时双向数字孪生与智能代理AI相结合,IVSR为积极主动、适应性强的野火灾害管理提供了一种可扩展的半自动化决策支持范式。
数字孪生 智能代理 灾害管理 任务规划 实时系统
论文重点研究了基于AI代理的智能虚拟指挥室,用于实时任务规划与资源协调,属于规划能力的核心应用。
GISA: A Benchmark for General Information-Seeking Assistant
Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang et al.
8/10 2026-02-09 cs.CL PDF
随着大语言模型(LLMs)的发展,能够通过多轮网络交互自主收集信息的搜索代理得到了显著推进。尽管已有多种基准用于评估此类代理,但现有基准通常从答案反向构建查询,导致任务不自然且不符合实际需求。此外,这些基准往往仅关注定位特定信息或聚合多源信息,并依赖静态答案集,容易受到数据污染。为弥补这些不足,本文提出GISA,一个包含373个人工设计查询的通用信息检索助手基准,反映了真实的信息检索场景。GISA具有四种结构化答案格式(项目、集合、列表和表格),支持确定性评估。它在统一任务中结合了深度推理和广泛的信息聚合,并包含一个定期更新答案的实时子集以防止记忆依赖。值得注意的是,GISA为每个查询提供了完整的人类搜索轨迹,为过程级监督和模仿学习提供了黄金标准参考。实验表明,主流LLM和商业搜索引擎的表现仍存在较大提升空间。
信息检索 任务规划 基准测试 多步骤推理
论文聚焦于信息检索代理的规划能力,强调复杂任务分解与多步骤信息整合。
Code
Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO
Kun Peng, Conghui Tan, Yu Liu, Guohua Tang, Zhongqian Sun et al.
†Institute of Information Engineering, Chinese Academy of Sciences‡Tencent
8/10 2026-02-09 cs.AI PDF
开放式的对话代理旨在通过适应用户的特征来提供引人入胜、个性化的互动,但现有方法存在关键限制:过度依赖预收集的用户数据,以及强化学习(RL)中的短期偏见,忽视了长期对话价值。为了解决这些问题,我们提出了一种新的长时域强化学习框架,结合在线个性化与自适应树基组相对策略优化(AT-GRPO)。采用双代理博弈范式,用户代理通过风格模仿(学习用户特定的对话特征)和主动终止(预测回合级终止概率作为即时奖励)构建动态环境,形成一个迭代循环,推动对话代理深入兴趣探索。AT-GRPO将对话轨迹重新解释为树结构,并引入自适应观察范围。与全树扩展带来的指数级开销不同,它限制每个节点仅聚合来自阶段感知范围的奖励:较大的范围支持早期阶段的主题探索,而较小的范围有助于后期对话维护。这种设计将对话长度的展开预算从指数级降低到多项式级,同时保持对长期奖励的捕获。大量实验表明,我们的框架在性能、样本效率和鲁棒性方面均表现出色。
强化学习 对话系统 长期规划 自适应策略优化
论文提出了一种长时域强化学习框架,用于优化对话代理的规划能力,涉及任务分解和长期目标导向行为。
Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System
Yanming Li, Xuelin Zhang, WenJie Lu, Ziye Tang, Maodong Wu et al.
迪迪许大学 汕大盐城大学 东南大学 天津大学
8/10 2026-02-09 cs.AI PDF
将大型语言模型(LLMs)与外部工具通过多智能体系统集成,为分解和解决复杂问题提供了一种有前景的新范式。然而,由于信用分配问题,训练这些系统仍然非常困难,因为通常难以确定哪个具体功能代理负责决策轨迹的成功或失败。现有方法通常依赖稀疏或全局广播的奖励,无法捕捉个体贡献,导致强化学习效率低下。为了解决这些限制,我们引入了基于Shapley的分层归因强化策略(SHARP),一种通过精确信用分配优化多智能体强化学习的新框架。SHARP主要通过分解奖励机制,包括全局广播准确性奖励、每个代理的基于Shapley的边际信用奖励以及工具过程奖励,从而有效稳定训练并提高执行效率。在多个现实世界基准测试中进行的广泛实验表明,SHARP显著优于最近的最先进基线,在单智能体和多智能体方法上分别实现了23.66%和14.05%的平均匹配改进。
多智能体系统 强化学习 信用分配 任务规划 SHARP
论文聚焦于多智能体系统中的奖励分配与训练优化,涉及任务分解和目标导向行为的规划机制。
When Do Multi-Agent Systems Outperform? Analysing the Learning Efficiency of Agentic Systems
Junwei Su, Chuan Wu
香港大学计算机科学系
8/10 2026-02-09 cs.LG PDF
强化学习(RL)已成为训练或微调大型语言模型(LLMs)的关键方法,通过交互式反馈实现自适应、任务特定的优化。多智能体强化学习(MARL)通过将复杂任务分解为由不同交互智能体学习的专门子任务,提供了有前景的途径,可能提升LLM系统的性能和效率。然而,关于MARL何时以及为何优于单智能体RL(SARL)的理论见解仍有限,这使得选择适当的RL框架存在不确定性。本文通过严格分析MARL和SARL在LLM中的样本效率对比,填补了这一关键空白。利用Probably Approximately Correct(PAC)框架,我们正式定义了LLM的SARL和MARL设置,推导出明确的样本复杂度界限,并系统地刻画了任务分解和对齐如何影响学习效率。结果表明,当任务自然分解为独立子任务时,MARL能提高样本效率,而依赖性子任务则削弱其优势。此外,我们引入并分析了任务对齐的概念,量化了在强制独立任务分解时可能出现的对齐偏差的权衡。这些理论见解澄清了经验上的不一致,并为在复杂LLM场景中有效部署MARL策略提供了实用标准。
多智能体强化学习 任务分解 学习效率 样本复杂度 任务对齐
论文重点分析了多智能体系统在任务分解和对齐方面的学习效率,与规划能力密切相关。
Towards Adaptive, Scalable, and Robust Coordination of LLM Agents: A Dynamic Ad-Hoc Networking Perspective
Rui Li, Zeyu Zhang, Xiaohe Bo, Quanyu Dai, Chaozhuo Li et al.
8/10 2026-02-08 cs.AI PDF
基于大语言模型(LLMs)的多代理架构通过精心设计的合作展现了实现群体智能的潜力。然而,手动协调的负担促使自动化代理工作流设计成为迫切需求。本文将代理协调问题视为动态自组网中的经典问题:如何在可扩展数量的代理主机之间建立自适应且可靠的通信?为此,我们提出RAPS,一种基于声誉的发布-订阅范式,用于实现LLM代理的自适应、可扩展和鲁棒协调。RAPS基于分布式发布-订阅协议,使代理能够根据声明的意图而非预定义拓扑交换消息。此外,RAPS还引入了两个协同覆盖层:(i) 反应式订阅,使代理能够动态优化其意图;(ii) 贝叶斯声誉,为每个代理提供本地监控机制以检测和隔离恶意节点。在五个基准上的广泛实验表明,我们的设计有效统一了多代理协调框架中的自适应性、可扩展性和鲁棒性。
multi-agent coordination dynamic ad-hoc networking reputation system publish-subscribe protocol
论文聚焦于LLM代理的自适应协调机制,涉及任务规划与多代理协作框架的设计。
Adaptive Acquisition Selection for Bayesian Optimization with Large Language Models
Giang Ngo, Dat Phan Trong, Dang Nguyen, Sunil Gupta, Svetha Venkatesh
8/10 2026-02-08 cs.LG PDF
贝叶斯优化的关键在于获取函数的选择,但没有一种策略是普遍最优的。现有自适应方法通常仅依赖于历史函数值,而忽略了剩余预算或替代模型特性等更丰富的信息。为解决这一问题,本文提出LMABO框架,将预训练大语言模型作为零样本在线策略制定者,用于贝叶斯优化过程。在每次迭代中,LMABO通过结构化状态表示提示LLM从多样化组合中选择最合适的获取函数。在50个基准问题上的评估表明,LMABO显著优于静态、自适应组合及其他基于LLM的基线方法。实验表明,LLM的行为是一种全面的策略,能够实时适应优化进度,其优势源于其处理和综合完整优化状态的能力,从而生成有效的自适应策略。
贝叶斯优化 大语言模型 自适应策略 任务规划
论文提出基于LLM的自适应策略选择框架,用于优化过程中的规划与决策。
Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning
Yonghyeon Jo, Sunwoo Lee, Seungyul Han
韩国科学技术院人工智能研究生院
7/10 2026-02-19 cs.AI PDF
价值分解是合作型多智能体强化学习(MARL)的核心方法。然而,现有方法仍依赖单一最优动作,在训练过程中当底层价值函数发生变化时难以适应,通常会收敛到次优策略。为解决这一限制,我们提出了连续子价值Q学习(S2Q),该方法通过学习多个子价值函数来保留替代的高价值动作。将这些子价值函数纳入基于Softmax的行为策略中,S2Q能够促进持续探索,并使$Q^{ ext{tot}}$快速适应变化的最优解。在具有挑战性的MARL基准测试中的实验表明,S2Q始终优于各种MARL算法,展示了其改进的适应性和整体性能。我们的代码可在https://github.com/hyeon1996/S2Q获取。
多智能体强化学习 价值分解 动态适应 探索策略
论文关注多智能体强化学习中的适应性策略,与规划能力中的目标导向行为和动态调整相关。
Code
Overseeing Agents Without Constant Oversight: Challenges and Opportunities
Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi et al.
华盛顿大学,美国 微软研究,美国
7/10 2026-02-18 cs.HC PDF
为了实现人类对Agent系统的监督,通常需要提供推理和行动步骤的轨迹。设计出信息量适中、不过于繁杂的轨迹仍然是一个关键挑战。通过三项针对计算机用户代理的用户研究,我们调查了基本行动轨迹在验证中的效用,探索了三种替代方案,并测试了一种新型界面在问答任务中发现错误的影响。如预期所见,当前方法较为繁琐,限制了其有效性。然而,我们提出的界面设计减少了参与者寻找错误所需的时间。尽管参与者报告了更高的决策信心,但最终准确性并未显著提高。因此,我们的研究揭示了对Agent系统进行人工验证的挑战,包括管理内置假设、用户主观且变化的正确性标准,以及沟通Agent过程的重要性与不足。
Agent监督 行动轨迹 人机交互 任务验证
论文探讨了Agent系统中任务执行过程的可验证性,涉及规划与行动步骤的追踪,属于规划能力相关研究。
Multi-agent cooperation through in-context co-player inference
Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas et al.
Google, Paradigm of Intelligence Team, Santa Fe Institute
7/10 2026-02-18 cs.AI PDF
在多智能体强化学习中,实现自利智能体之间的合作仍是一个基本挑战。近期研究表明,能够考虑并塑造其共玩家学习动态的“学习感知”智能体可以诱导相互合作。然而,现有方法通常依赖于硬编码的、常常不一致的关于共玩家学习规则的假设,或强制区分“天真学习者”和“元学习者”。本文表明,序列模型的上下文学习能力可以在无需硬编码假设或显式时间尺度分离的情况下实现共玩家学习感知。我们发现,对多样化的共玩家进行训练,自然诱导出上下文最佳响应策略,这些策略在快速的单次回合时间尺度上有效地充当了学习算法。我们发现,先前工作中识别的合作机制——即对勒索的脆弱性驱动相互塑造——在这种设置中自然出现:上下文适应使智能体容易受到勒索,而由此产生的相互压力促使智能体学习对手的上下文学习动态,最终演化为合作行为。我们的结果表明,结合共玩家多样性对序列模型进行标准去中心化强化学习,为学习合作行为提供了一条可扩展的路径。
多智能体协作 上下文学习 强化学习 合作机制
论文探讨了多智能体协作机制,涉及任务规划与目标导向行为的生成。
AI Agents for Inventory Control: Human-LLM-OR Complementarity
Jackie Baek, Yaopeng Fu, Will Ma, Tianyi Peng
纽约大学斯特恩商学院 哥伦比亚大学商学院 哥伦比亚大学数据科学研究所
7/10 2026-02-13 cs.AI PDF
库存控制是运营管理中的一个基本问题,传统上依赖于基于理论的运筹学(OR)算法来指导订购决策。然而,这些算法通常依赖于严格的建模假设,在需求分布变化或缺乏相关上下文信息时表现不佳。近年来,大语言模型(LLMs)的进步引发了对能够灵活推理并整合丰富上下文信号的AI代理的兴趣,但如何将基于LLM的方法最佳地整合到传统决策流程中仍不清楚。本文研究了在多期库存控制场景中,OR算法、LLMs和人类如何相互作用并互补。我们构建了InventoryBench基准测试集,包含超过1000个库存实例,涵盖合成和真实世界的需求数据,旨在测试决策规则在需求变化、季节性和不确定交货时间下的表现。通过该基准测试,我们发现增强OR的LLM方法优于单独使用任一方法,表明这些方法是互补而非替代关系。此外,我们通过受控课堂实验研究了人类的作用,将LLM建议嵌入到人机协作的决策流程中。与之前认为人机协作可能降低性能的发现相反,我们证明平均而言,人机团队的利润高于单独由人类或AI代理操作。除了这一群体层面的发现,我们还形式化了一个个体层面的互补效应,并推导出一个无需分布假设的下限,即从AI协作中受益的个体比例;实证结果显示这一比例相当可观。
库存控制 人机协作 运筹学 LLM应用 决策优化
论文探讨了AI代理在库存控制中的规划能力,结合OR算法与LLM进行任务决策。
The Five Ws of Multi-Agent Communication: Who Talks to Whom, When, What, and Why -- A Survey from MARL to Emergent Language and LLMs
Jingdi Chen, Hanqing Yang, Zongjun Liu, Carlee Joe-Wong
亚利桑那大学 卡内基梅隆大学
7/10 2026-02-12 cs.AI PDF
多智能体序列决策在许多现实系统中发挥着重要作用,如自动驾驶车辆、机器人和协作AI助手。在动态且部分可观测的环境中,通信通常是减少不确定性并实现协作的关键。本文通过五个W(who, what, when, where, why)框架综述了多智能体通信(MA-Comm)。我们回顾了通信方法在三个主要范式下的演变:多智能体强化学习(MARL)、涌现语言(EL)和基于大语言模型(LLMs)的系统。文章指出不同选择如何塑造通信设计,并总结了当前的主要权衡和未解决的问题,为未来结合学习、语言和控制的混合系统提供设计模式和开放挑战。
multi-agent communication MARL emergent language LLMs task planning
论文讨论了多智能体协作中的通信机制,涉及任务规划与目标导向行为。
GameDevBench: Evaluating Agentic Capabilities Through Game Development
Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten et al.
卡内基梅隆大学 普林斯顿大学
7/10 2026-02-11 cs.AI PDF
尽管编码智能体取得了快速进展,但其多模态能力的发展相对滞后。一个关键挑战是缺乏结合软件开发复杂性与深度多模态理解的评估平台。游戏开发提供了这样的测试环境,因为智能体需要处理大型、密集的代码库,并操作内在多模态资源(如着色器、精灵和动画)以构建视觉游戏场景。本文提出了GameDevBench,这是首个用于评估智能体在游戏开发任务中表现的基准测试。该基准包含132个任务,来源于网络和视频教程,任务要求显著的多模态理解和复杂的操作——平均解决方案所需的代码行数和文件修改量是之前软件开发基准的三倍以上。目前智能体仍难以应对游戏开发任务,最佳智能体仅能解决54.5%的任务。研究发现任务难度与多模态复杂性之间存在强相关性,成功率从面向游戏玩法的任务46.9%下降到2D图形任务的31.6%。为提升多模态能力,作者引入了两种基于图像和视频的反馈机制。尽管方法简单,但这些方法显著提升了性能,其中Claude Sonnet 4.5的表现从33.3%提高到了47.7%。作者公开发布GameDevBench以支持进一步的研究。
游戏开发 智能体评估 多模态理解 任务规划
论文聚焦于评估Agent在游戏开发任务中的能力,涉及复杂任务规划与多步骤操作。
Code
Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers
Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang et al.
杜克大学电气与计算机工程系,美国北卡罗来纳州达勒姆
7/10 2026-02-09 cs.LG PDF
上下文强化学习(ICRL)利用Transformer模型的上下文学习能力,在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有ICRL方法依赖预训练阶段的显式奖励信号,限制了其在奖励模糊、难以定义或获取成本高的场景中的应用。为解决这一问题,本文提出了一种新的学习范式——基于偏好的上下文强化学习(ICPRL),该方法在预训练和部署阶段仅依赖偏好反馈,消除了对奖励监督的需求。研究了两种变体:基于即时偏好反馈的I-PRL和基于轨迹级比较的T-PRL。实验表明,ICPRL能够在无奖励监督的情况下实现强上下文泛化,性能可与使用完整奖励监督的ICRL方法媲美。
强化学习 偏好学习 上下文学习 Transformer 任务规划
论文探讨了基于偏好反馈的强化学习方法,与任务规划和目标导向行为相关。
排序:
每页显示: