RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
Yunseok Han, Yejoon Lee, Jaeyoung Do
AIDAS Laboratory, IPAII & ECEC, Seoul National University
大型推理模型(LRMs)表现出色,但其生成的推理过程往往看似合理却未能真实反映决策过程,从而影响其可靠性和信任度。本文提出了一种形式化的推理可信度框架,定义了两个可测试条件:立场一致性(推理与答案之间的连贯性)和因果影响(在输出级干预下,陈述的推理是否因果驱动答案),并明确将其与准确性解耦。为此,我们提出了RFEval基准测试集,包含7,186个实例,通过受控的输出级反事实干预来探测推理可信度。评估十二个开源LRMs后发现,49.7%的输出存在不可信问题,主要源于立场不一致。失败案例集中在数学和代码等脆弱且收敛领域,并与训练后策略相关性更高而非模型规模。关键发现是,准确性并非推理可信度的充分或可靠代理:控制模型和任务后,准确率与可信度之间的关联较弱且无统计显著性。本研究建立了一种严格的审计方法,表明可信AI不仅需要正确结果,还需优化推理过程的结构完整性。
推理可信度
反事实干预
大语言模型评估
因果推理
论文聚焦于大推理模型的推理过程可靠性,直接涉及推理能力的核心问题。
分享
Code
夯
0
拉
0
Training Large Reasoning Models Efficiently via Progressive Thought Encoding
Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.
罗切斯特大学
微软研究
大型推理模型(LRMs)在复杂问题上表现出色,但面临效率瓶颈:基于强化学习的训练需要长序列展开以获取结果奖励,而自回归解码占用了大量时间和内存。尽管滑动窗口缓存策略可以限制内存使用,但会破坏长上下文推理并降低性能。本文提出渐进式思维编码(Progressive Thought Encoding),一种参数高效的微调方法,使LRMs能够在固定大小的缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示,该方法消除了对完整缓存展开进行反向传播的需求,从而减少内存使用,并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行的实验表明,在六个广泛使用的数学基准测试中,该方法平均比基于LoRA的微调提升了19.3%,比未微调的LRMs提升了29.9%,在AIME2024/2025数据集上最高提升了23.4个百分点。这些结果表明,渐进式思维编码不仅提高了推理准确性,还显著提升了LRMs在现实世界内存限制下的强化学习训练效率和可扩展性。
推理优化
缓存管理
参数高效微调
强化学习训练
论文聚焦于提升大模型的推理能力,提出了一种高效的训练方法以增强其在有限缓存下的推理表现。
分享
夯
0
拉
0
Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs
Felix Fricke, Simon Malberg, Georg Groh
慕尼黑大学计算机、信息与技术学院,德国
诸如思维链(Chain of Thought)、思维树(Tree of Thoughts)和思维图(Graph of Thoughts)等提示方法可以显著增强大语言模型的推理能力。然而,现有方法通常需要用户定义静态且问题特定的推理结构,缺乏对动态或未见过的问题类型的适应性。此外,这些方法在超参数、提示、运行时和提示成本方面往往未得到充分优化。为了解决这些问题,我们提出了思维框架(Framework of Thoughts, FoT)——一种通用的基础框架,用于构建和优化动态推理方案。FoT内置了超参数调优、提示优化、并行执行和智能缓存等功能,释放了推理方案的潜在性能。我们通过在FoT中实现三种流行的方案(思维树、思维图和ProbTree),展示了FoT的能力。实验证明,FoT能够显著加快执行速度,降低成本,并通过优化实现更好的任务得分。我们发布了代码库,以促进未来动态高效推理方案的发展。
推理优化
动态推理框架
提示工程
LLM推理能力
论文聚焦于提升LLM的推理能力,提出动态优化的推理框架,直接对应reasoning主题。
分享
Code
夯
0
拉
0
Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution
Nithin Sivakumaran, Shoubin Yu, Hyunji Lee, Yue Zhang, Ali Payani et al.
UNC Chapel Hill
Nitin Sivakumaran - 沙拉克大学(Carnegie Mellon University)
思维链(CoT)推理有时无法准确反映大语言模型(LLM)的真实计算过程,这限制了其在解释LLM如何得出答案方面的实用性。此外,优化推理的忠实性与可解释性通常会降低任务性能。为了解决这一权衡并提高CoT的忠实性,我们提出了多听众推理执行(REMUL),一种多方强化学习方法。REMUL基于这样的假设:其他方能够跟随的推理轨迹将更加忠实。一个说话者模型生成推理轨迹,该轨迹被截断并传递给一组听众模型,这些模型“执行”轨迹并继续生成答案。说话者因生成清晰的推理轨迹而获得奖励,并通过掩码监督微调进行额外的正确性正则化,以应对忠实性与性能之间的权衡。在多个推理基准测试(BIG-Bench Extra Hard、MuSR、ZebraLogicBench和FOLIO)上,REMUL显著提升了三个忠实性指标——提示归因、早期回答面积曲线下面积(AOC)和错误注入AOC,同时提高了准确性。我们的分析发现,这些改进在训练领域中具有鲁棒性,转化为可读性提升,并且与更短、更直接的CoT相关。
chain-of-thought
faithfulness
multi-party learning
reasoning trace
reinforcement learning
论文聚焦于提升LLM推理过程的忠实性与性能,直接涉及推理能力的核心机制。
分享
Code
夯
0
拉
0
Broken Chains: The Cost of Incomplete Reasoning in LLMs
Ian Su, Gaurav Purushothaman, Jey Narayan, Ruhika Goel, Kevin Zhu et al.
专门用于推理的模型如OpenAI的5.1版和DeepSeek-V3.2分配大量计算资源用于扩展的思维链(CoT)推理,但推理标记会带来显著成本。在标记数量受限的情况下,不同推理模式(代码、自然语言、混合或无)的表现如何?本文引入了一个框架,限制模型仅通过代码、注释、两者或都不进行推理,并系统性地将标记预算减少到最优值的10%、30%、50%和70%。我们在数学基准测试(AIME、GSM8K、HMMT)上评估了四个前沿模型(GPT-5.1、Gemini 3 Flash、DeepSeek-V3.2、Grok 4.1)。研究发现:(1)截断推理可能有害,DeepSeek-V3.2在无推理时达到53%,但在50%预算下使用截断CoT时仅为17%;(2)代码表现更为稳健,Gemini的注释在预算减少时完全失效,而代码仍保持43-47%;(3)混合推理表现不如单一模态;(4)鲁棒性依赖于模型,Grok在30%预算下仍保持80-90%,而OpenAI和DeepSeek则下降至7-27%。这些结果表明,不完整的推理链会主动误导模型,这对资源受限环境下部署专用推理系统具有重要意义。
推理能力
思维链
资源约束
模型比较
代码推理
论文核心研究LLM的推理能力,探讨不同推理模式在资源受限下的表现。
分享
夯
0
拉
0
Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
William L. Tong, Ege Cakar, Cengiz Pehlevan
哈佛大学工程与应用科学学院
哈佛大学计算机实验室
哈佛大学脑科学中心
近年来,推理模型取得了显著进展,这些模型在生成最终输出前会生成中间推理痕迹(RTs)。尽管如此,我们对RTs如何支持推理以及该范式的局限性仍缺乏深入理解。为此,我们引入了PITA数据集,包含2300多万条命题逻辑语句及其对应的证明。作为鲁棒推理的基准,我们关注长度泛化问题:如果模型被训练用于判断固定长度证明的真假,它在面对需要更长证明的语句时表现如何?我们提出了任务深度和任务广度两个概念,分别衡量解决一个任务所需的步骤数和任务中唯一示例的数量。通过在PITA子集中调整这些参数,我们发现RT模型在广泛而浅层的任务上表现良好,但在狭窄而深层的任务上相比非RT基线模型性能下降。为了验证结果是否具有普遍性,我们将结果与基于三段论的简单合成任务进行比较。我们的理论表明,RT模型在深层任务上的性能存在根本性限制,同时突出了其在广域任务中的泛化优势。总体而言,我们的研究揭示了使用推理痕迹的基本优势和局限性。
推理模型
推理痕迹
长度泛化
任务拓扑
逻辑推理
论文聚焦于推理模型中的中间推理痕迹(RTs)及其对推理能力的影响,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
Gregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli, Moin Nabi
Apple
思维链(CoT)提示是一种从大型语言模型(LLMs)中激发类推理响应的标准技术,允许模型在给出最终答案前逐步说明推理过程。尽管其与人类推理的相似性显而易见,但支撑CoT推理成功的内在机制仍不清楚。本文通过深入分析来自竞赛级数学问题的CoT轨迹,旨在更好地理解哪些部分的CoT真正有助于得出最终答案。为此,我们引入了“势能”概念,用于量化CoT中某一部分如何提高正确完成的可能性。通过势能视角分析推理轨迹,我们发现了令人惊讶的模式,包括非单调性、尖锐但难以解释的峰值以及偶然猜测等现象。此外,我们还研究了CoT可迁移性,发现仅20%的部分CoT即可显著提升弱模型的性能,表明CoT的核心机制具有可迁移性。
Chain-of-thought
Reasoning Dynamics
LLM Analysis
Potential Quantification
CoT Transferability
论文核心研究CoT的推理机制及其对LLM推理能力的影响,直接涉及推理能力主题。
分享
夯
0
拉
0
Diagnosing Pathological Chain-of-Thought in Reasoning Models
Manqing Liu, David Williams-King, Ida Caspary, Linh Le, Hannes Whittingham et al.
哈佛大学医学院,美国波士顿
思维链(Chain-of-Thought, CoT)推理是现代大语言模型(LLM)架构中的核心机制,也是AI安全的重要干预点。然而,CoT推理可能表现出一些称为‘病理’的失效模式,这些模式阻碍了其在监控中的实用性。先前的研究已识别出三种不同的病理:事后合理化(模型从预设答案反向生成看似合理的解释)、编码推理(中间步骤在表面上可解释的文本中隐藏信息)以及内化推理(模型在内部计算时用无意义的填充标记替代显式推理)。为了更好地理解和区分这些病理,本文提出了一组易于实现、计算成本低且任务无关的具体度量指标。为验证该方法,我们开发了一些专门训练以展示特定CoT病理的模型。本研究为评估CoT病理提供了实用工具包,并对训练过程中的监控具有直接意义。
chain-of-thought
pathology detection
LLM reasoning
AI safety
论文聚焦于LLM的推理能力中的Chain-of-Thought(CoT)机制,分析其病理现象并提出评估方法。
分享
夯
0
拉
0
Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen et al.
弗吉尼亚大学
Google
大型语言模型(LLMs)通过扩展推理时的计算量以实现长链思维(CoT)展现出卓越的推理能力。然而,近期研究表明,原始的token数量并不能可靠地反映推理质量:生成长度增加并不总是与准确性相关,反而可能表明“过度思考”,导致性能下降。在本研究中,我们通过识别深度思考标记(即在模型深层收敛前内部预测发生显著修订的标记)来量化推理时的努力。在四个具有挑战性的数学和科学基准测试(AIME 24/25、HMMT 25 和 GPQA-diamond)以及多种专注于推理的模型(GPT-OSS、DeepSeek-R1 和 Qwen3)上,我们发现深度思考比例(生成序列中深度思考标记的比例)与准确性之间存在稳健且一致的正相关关系,显著优于基于长度和置信度的基线方法。利用这一洞察,我们引入了Think@n策略,该策略优先处理深度思考比例高的样本,并通过基于短前缀提前拒绝无前途生成,显著降低了推理成本。
推理能力
深度思考标记
推理优化
生成质量评估
论文聚焦于LLM的推理能力,提出衡量推理努力的新指标并验证其有效性。
分享
夯
0
拉
0
On-Policy Supervised Fine-Tuning for Efficient Reasoning
Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye et al.
香港科技大学
大型推理模型(LRMs)通常通过强化学习(RL)进行训练,以探索长链式推理,但这种方法计算成本较高。近期方法引入多奖励目标以联合优化正确性和简洁性,但这些复杂扩展常导致训练不稳定并产生次优权衡。本文重新审视这一目标,并质疑其复杂性的必要性。通过原理分析,我们发现该范式中存在根本性偏差:当正确性和长度可以直接验证时,KL正则化失去了其预期作用,且在多个奖励信号下,分组归一化变得模糊。通过移除这两项并简化奖励为基于截断的长度惩罚,我们将优化问题简化为对经过正确性和简洁性筛选的自生成数据进行监督微调。我们称此简化训练策略为基于策略的监督微调(on-policy SFT)。尽管简单,该方法始终定义了准确率-效率的帕累托前沿。它在保持原始准确率的同时将思维链长度减少高达80%,并在五个基准测试中超越了更复杂的基于强化学习的方法。此外,它显著提升了训练效率,减少了50%的GPU内存使用并加速了70%的收敛速度。
强化学习
监督微调
推理优化
模型效率
链式推理
论文聚焦于提升大模型的推理效率与准确性,直接涉及推理能力优化。
分享
Code
夯
0
拉
0
Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models
Zesheng Hong, Jiadong Yu, Hui Pan
香港科技大学(广州)信息 hub
可验证奖励强化学习(RLVR)已成为在大型语言模型中植入严格推理能力的主流范式。然而,该方法存在系统性抑制有效但罕见推理路径的问题,本文将其理论化为“归一化挤压”现象。为应对这一问题,作者提出摊销推理树搜索(ARTS),通过解耦生成与验证过程,引入流匹配目标以估计概率流守恒,从而在稀疏、高熵搜索空间中实现稳健导航。实验表明,ARTS在MATH-500基准测试中达到74.6%的性能,接近完全微调策略的表现,并在长尾子集上显著恢复性能,证明了解耦验证与生成的有效性。
推理能力
概率流
流匹配
稀疏搜索空间
强化学习
论文聚焦于增强LLM的推理能力,提出解决稀有正确推理路径被抑制的问题,并通过ARTS方法提升复杂推理任务表现。
分享
夯
0
拉
0
Evaluating Robustness of Reasoning Models on Parameterized Logical Problems
Naïm Es-sebbani, Esteban Marquer, Yakoub Salhi, Zied Bouraoui
CRIL, UMR 8188, Université d'Artois, CNRS, France
Université de Caen Basse Normandie, France
逻辑为基于LLM的推理器提供了一个可控的测试环境,但标准SAT风格基准常常将表面难度(如长度、措辞、子句顺序)与决定可满足性的结构性现象混淆。本文引入了一个用于2-SAT的诊断基准,该基准由参数化的结构化2-CNF公式构建,其中可满足性由蕴含图表征,并可通过可解释的维度进行调整。生成器隔离了不同的能力与失败模式,包括可控大小和不平衡的矛盾循环UNSAT核心、具有预设自由变量比例的SAT实例、调节传播的植入骨干、探测对排序和修订敏感性的晚期桥接子句以及测试重命名和冗余结构下抽象能力的对称/复制变体。我们从决策准确性和赋值有效性两个方面评估基于LLM的推理器,并量化在语义保持扰动(如子句重新排序、填充子句和变量重命名)下的鲁棒性。结果显示,在固定表面统计信息的情况下,针对结构干预的性能出现显著变化,揭示了传统SAT准确率无法发现的脆弱性区域。
推理鲁棒性
逻辑问题
LLM评估
2-SAT
结构化测试
论文聚焦于评估LLM的推理能力,通过结构化逻辑问题测试其鲁棒性,直接对应reasoning主题。
分享
夯
0
拉
0
Constraint-Rectified Training for Efficient Chain-of-Thought
Qinhang Wu, Sen Lin, Ming Zhang, Yingbin Liang, Ness B. Shroff
俄亥俄州立大学
休斯顿大学
谷歌
思维链(Chain-of-Thought, CoT)显著增强了大语言模型(LLMs)的推理能力,尤其是在结合基于强化学习(RL)的后训练方法时。虽然更长的推理过程可以提高答案质量并实现自我纠正等能力,但也带来了高推理成本和冗余步骤的问题,即过度思考。近期研究尝试通过长度感知奖励设计或提示校准来开发高效的推理策略,但这些启发式方法可能面临准确性严重下降和对超参数高度敏感的问题。为了解决这些问题,本文提出了一种基于参考引导约束优化的约束修正训练(Constraint-Rectified Training, CRT)框架,提供了一种更稳定且可解释的高效推理公式。CRT在性能低于参考值时交替最小化推理长度并修正准确性,从而稳定有效地剪枝冗余推理。进一步地,CRT采用两阶段训练方案,首先发现最短可靠的推理模式,然后在学习到的长度预算下优化准确性,防止冗长的CoT重新出现。全面评估表明,该框架在保持答案质量的同时一致减少了token使用量。进一步分析显示,CRT不仅通过缩短响应提高了推理效率,还通过减少内部语言冗余提升了效率,并引入了新的评估指标。此外,基于CRT的训练自然生成了一系列中间检查点,覆盖了不同解释长度但保持正确性的范围,使推理冗长程度的精细控制无需重新训练即可实现。
Chain-of-Thought
推理优化
约束训练
强化学习
语言模型效率
论文聚焦于提升LLM的推理效率,直接涉及Chain-of-Thought(CoT)机制及优化方法。
分享
夯
0
拉
0
Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty
Zewei Yu, Lirong Gao, Yuke Zhu, Bo Zheng, Sheng Guo et al.
State Key Laboratory of Blockchain and Data Security, Zhejiang University
MyBank, Ant Group
Innovation and Management Center
School of Software Technology (Ningbo), Zhejiang University
大推理模型(LRMs)通过测试时扩展在复杂推理任务中表现出色,但常生成过长的思考链,导致高计算开销和延迟。本文发现,问题复杂度增加会引发更多冗余反思,从而降低准确率并增加token消耗。为此,提出自适应反思和长度协调惩罚(ARLCP)框架,通过动态平衡推理效率与准确性,引入两个关键创新:一是自适应抑制冗余反思步骤,二是根据问题复杂度校准长度惩罚。实验表明,该方法在多个数学推理基准上显著提升了效率-准确率权衡。
推理优化
强化学习
效率-准确率权衡
数学推理
论文聚焦于提升LLM的推理效率与准确性,直接涉及推理机制优化。
分享
Code
夯
0
拉
0
InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection
Xiuping Wu, Zhao Yu, Yuxin Cheng, Ngai Wong, Liangjun Ke et al.
University of Southampton
推理能力可以显著提升大语言模型(LLM)的性能。尽管近期的研究通过调整行为相关的提示来增强推理,但这些设计仍主要依赖直觉,缺乏对底层行为模式的系统分析。本文从行为模式的角度出发,探讨了模型在回答特定类型问题时推理行为的适应性分布,并发现结构化地注入这些模式可以显著影响模型推理过程和结果的质量。基于此,我们提出了两种无需参数更新的优化方法:InjectCorrect 和 InjectRLOpt。InjectCorrect 通过模仿模型自身过去正确答案中的行为模式来引导模型;InjectRLOpt 则从历史行为模式数据中学习价值函数,并通过提出的可靠性感知Softmax策略生成行为注入内容以引导推理过程。实验表明,这两种方法可以在不修改模型参数的情况下提升模型在多种推理任务中的表现,分别达到5.34%和8.67%的性能提升。
推理优化
行为模式注入
无参数微调
LLM推理增强
论文聚焦于LLM的推理行为优化,提出通过模式注入提升推理质量,属于推理能力的核心研究。
分享
夯
0
拉
0
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces
Xin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley et al.
UC San Diego
近期研究通过在潜在空间中使用连续表示来替代显式推理轨迹以提高推理效率,但其效果因场景而异。分析表明,得出错误答案的推理轨迹中低置信度步骤较少,而多个低置信度推理路径的软嵌入可能引入并传播噪声,导致对不可靠推理轨迹的高置信度。受此启发,本文提出了一种推理时的置信度感知路由机制ThinkRouter,用于避免高置信度和噪声,从而实现更高效的推理。当模型置信度较低时,ThinkRouter将思考路由到离散标记空间,否则路由到潜在空间。在STEM推理和编程基准测试中,ThinkRouter在准确性方面优于显式思维链、随机路由和潜在推理基线,在Pass@1指标上平均提升了19.70分,同时减少了高达15.55%的生成长度。进一步分析表明,ThinkRouter能够校准来自显式思维链和潜在推理的误差,并通过全局降低模型置信度加速推理结束时的标记生成。
推理优化
置信度路由
潜在空间
离散空间
LLM推理
论文聚焦于推理效率提升,提出基于置信度的路由机制,直接针对LLM的推理能力优化。
分享
夯
0
拉
0
scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery
Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu et al.
UC San Diego
Texas A&M University
本文提出scPilot,首个系统性框架用于实践组学原生推理:大型语言模型(LLM)通过自然语言对话,直接检查单细胞RNA-seq数据和按需生物信息学工具。scPilot将核心单细胞分析任务(如细胞类型注释、发育轨迹重建和转录因子靶向)转化为需要模型逐步解决、解释并根据新证据修订的推理问题。为评估进展,作者发布了scBench,包含9个专家精心整理的数据集和评分器,以准确评估scPilot相对于各种LLM的组学原生推理能力。实验表明,迭代组学原生推理可提升细胞类型注释的平均准确率11%,Gemini-2.5-Pro相比一次性提示法可减少30%的轨迹图编辑距离,同时生成透明的推理过程以解释标记基因的模糊性和调控逻辑。通过将LLM扎根于原始组学数据,scPilot实现了可审计、可解释且具有诊断信息的单细胞分析。
单细胞分析
组学推理
LLM推理
生物信息学工具
任务分解
论文核心围绕LLM在单细胞数据分析中的推理能力展开,直接涉及推理机制与任务分解。
分享
Code
夯
0
拉
0
Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
Yuanfu Wang, Zhixuan Liu, Xiangtian Li, Chaochao Lu, Chao Yang
上海人工智能实验室
当前训练大型推理模型的主流范式结合了监督微调(SFT)与基于可验证奖励的强化学习(RLVR),但其依赖高质量的人工标注推理数据和外部验证器,导致数据收集成本高、存在人类认知偏见,并限制了强化学习阶段的应用范围。为克服这些限制,本文提出了一种新的训练框架NRT(原生推理训练),该框架通过仅使用标准问答对让模型自动生成推理过程,从而无需专家编写的示例。NRT将推理过程视为潜在变量,采用统一的训练目标,将推理建模为优化问题,内在奖励那些提高模型生成正确答案可能性的路径。实验表明,NRT在无需验证器的方法中表现最佳,显著优于传统SFT基线和先前的无验证强化学习方法,在复杂推理任务中表现出色且具有较高的鲁棒性。
推理训练
无验证学习
自生成推理
语言模型优化
论文核心研究如何训练模型进行复杂推理,提出NRT框架以提升模型在无验证数据下的推理能力。
分享
夯
0
拉
0
Canvas-of-Thought: Grounding Reasoning via Mutable Structured States
Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun et al.
中国科学院大学
北京大学
纽约大学
威斯康星大学
尽管Chain-of-Thought(CoT)提示方法显著提升了多模态大语言模型(MLLMs)的推理能力,但仅依赖线性文本序列在复杂任务中仍存在瓶颈。本文观察到,即使在辅助视觉元素被交错使用时,它们通常也被视为一维、无结构推理链中的静态快照。我们提出,现有方法将推理历史视为不可变的流:纠正局部错误需要生成冗长的下游修正或重新生成整个上下文,这迫使模型隐式地维护和跟踪状态更新,显著增加了token消耗和认知负担。这一限制在高维领域(如几何和SVG设计)尤为明显,因为CoT的文本表达缺乏显式的视觉指导,进一步限制了模型的推理精度。为弥补这一差距,我们引入了Canvas-of-Thought(Canvas-CoT)。通过利用HTML Canvas作为外部推理基质,Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订,使模型能够显式维护“真实状态”。此外,我们集成了一个基于渲染的批评循环,作为硬约束验证器,提供显式视觉反馈,以解决仅靠文本难以描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明,Canvas-CoT显著优于现有基线,确立了一种新的上下文高效多模态推理范式。
multimodal reasoning
canvas-based reasoning
context-efficient
visual feedback
chain-of-thought
论文核心聚焦于提升LLM的推理能力,提出Canvas-CoT架构以改进复杂任务中的推理效率与精度。
分享
夯
0
拉
0
Towards Autonomous Mathematics Research
Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi et al.
Google DeepMind
近年来基础模型的进步使得推理系统能够在国际数学奥林匹克竞赛中达到金牌水平。然而,从竞赛级问题解决转向专业研究需要处理大量文献并构建长期证明。本文介绍了Aletheia,一个能够端到端生成、验证和修订解决方案的数学研究代理。Aletheia基于改进版Gemini Deep Think模型,采用新的推理时间扩展定律,并通过工具使用应对数学研究的复杂性。我们展示了Aletheia从奥数问题到博士级别的练习能力,并实现了多个AI辅助数学研究的重要里程碑,包括完全由AI生成的研究论文、人机协作证明粒子系统边界以及对700个开放问题的半自主评估。为帮助公众理解AI与数学的发展,我们建议量化AI辅助成果的自主性和新颖性,并提出人机交互卡片的概念以提高透明度。
数学推理
AI研究代理
自然语言处理
自主研究
论文核心聚焦于LLM在数学推理与研究中的应用,涉及复杂推理、证明生成及自主研究能力。
分享
Code
夯
0
拉
0
Chain of Mindset: Reasoning with Adaptive Cognitive Modes
Tianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li et al.
PKU
BJTU
SUFE
NUS
人类解决问题时从不依赖单一的认知模式,而是整合多种模式完成任务。然而现有LLM推理方法通常采用固定模式,忽视了不同阶段需要不同的认知方式。为此,本文提出Chain of Mindset(CoM)框架,一种无需训练的智能代理系统,实现步骤级自适应认知模式调度。该框架将推理分解为四种功能异构的认知模式:空间、聚合、发散和算法。一个元代理根据推理状态动态选择最优模式,双向上下文门控机制过滤跨模块信息流以保持效率与效果。实验表明,CoM在多个基准测试中达到最先进水平,显著优于现有基线模型。
推理能力
认知模式
自适应推理
LLM架构
多模态推理
论文核心聚焦于LLM的推理能力,提出基于不同认知模式的自适应推理框架。
分享
Code
夯
0
拉
0
ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman
马萨诸塞大学阿默斯特分校
大型推理模型(LRMs)通过生成长链式推理实现最先进的性能,但常常在正确答案已得出后仍浪费计算资源进行冗余推理。本文提出了一种名为ESTAR的早期停止词感知推理方法,旨在检测并减少此类冗余推理以提高效率而不牺牲准确性。该方法结合了基于轨迹的分类器以识别安全停止推理的时间点、监督微调以训练LRMs自动生成信号,以及基于的强化学习以在自动生成的停止点截断推理过程,并使用计算感知奖励机制。在四个推理数据集上的实验表明,ESTAR将推理长度减少了约3.7倍(从4,799降至1,290),同时保持了准确率(74.9% vs. 74.2%),并且具有较强的跨领域泛化能力。这些结果突显了早期停止作为提升LRMs推理效率的一种简单而强大的机制。
推理优化
早期停止
计算效率
大语言模型
论文聚焦于提升大模型推理效率,直接涉及推理过程中的冗余检测与优化。
分享
夯
0
拉
0
Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning
Jinsong Liu, Yuhang Jiang, Ramayya Krishnan, Rema Padman, Yiye Zhang et al.
美国康奈尔大学医学院,康奈尔大学,纽约,美国
印第安纳大学健康数据科学系,印第安纳大学,美国
美国匹兹堡大学信息与公共政策学院,匹兹堡大学,美国
美国卡内基梅隆大学信息与公共政策学院,卡内基梅隆大学,匹兹堡,美国
临床决策支持不仅需要正确答案,还需要具有临床有效性的推理过程。本文提出了一种差分推理学习(DRL)框架,通过从参考推理依据(如医生撰写的临床依据、临床指南或更强大模型的输出)和代理的自由形式思维链(CoT)中提取推理图,并基于临床加权图编辑距离(GED)进行差异分析,从而提高临床代理的推理能力。一个作为法官的LLM对语义等价节点进行对齐并诊断图之间的差异。这些图级别的差异诊断被转换为自然语言指令,并存储在差分推理知识库(DR-KB)中。在推理阶段,通过检索增强生成(RAG)方法检索前k条指令以增强代理提示,修补可能的逻辑漏洞。在开放医学问答基准和内部临床数据的再入院预测任务上的评估表明,该方法优于基线,在最终答案准确性和推理一致性方面均有提升。消融实验进一步验证了引入参考推理依据和前k检索策略的有效性。临床医生对输出的审查也提供了额外的保障。结果表明,DRL能够支持复杂推理场景下的更可靠的临床决策,并提供一种在有限token预算下部署的实用机制。
临床代理
推理增强
图编辑距离
检索增强生成
医疗问答
论文核心围绕临床代理的推理能力改进,提出差分推理学习框架以提升推理准确性与合理性。
分享
夯
0
拉
0
GHS-TDA: A Synergistic Reasoning Framework Integrating Global Hypothesis Space with Topological Data Analysis
Jiaquan Zhang, Chaoning Zhang, Shuxu Chen, Xudong Wang, Zhenzhen Huang et al.
University of Electronic Science and Technology of China
Kyung Hee University
The Hong Kong Polytechnic University
思维链(CoT)已被证明能显著提升大语言模型(LLMs)在复杂任务中的推理准确性。然而,由于其自回归、逐步生成的范式,现有CoT方法存在两个根本性限制。首先,推理过程对早期决策高度敏感:一旦引入初始错误,它倾向于在后续步骤中传播和放大,而缺乏全局协调和修正机制使得此类错误难以纠正,最终导致推理链扭曲。其次,当前CoT方法缺乏结构化分析技术来过滤冗余推理并提取关键推理特征,从而导致推理过程不稳定且可解释性有限。为了解决这些问题,我们提出了GHS-TDA。GHS-TDA首先构建一个语义丰富的全局假设图,以聚合、对齐和协调多个候选推理路径,从而在局部推理失败时提供替代的全局修正路径。然后,它基于持久同调的拓扑数据分析技术,捕捉稳定的多尺度结构,去除冗余和不一致性,并提取更可靠的推理骨架。通过联合利用推理多样性和拓扑稳定性,GHS-TDA实现了自适应收敛,生成高置信度和可解释的推理路径,并在多个推理基准测试中始终优于强大的基线方法,在准确性和鲁棒性方面表现优异。
Chain-of-Thought
Topological Data Analysis
Reasoning Accuracy
Global Hypothesis Space
论文聚焦于提升LLM的推理能力,提出GHS-TDA框架解决CoT方法中的核心问题。
分享
夯
0
拉
0
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei et al.
P1 Team, Shanghai AI Laboratory
从符号操作到科学级推理是大型语言模型(LLMs)的关键前沿,而物理学作为将抽象逻辑与物理现实绑定的关键测试点。物理问题要求模型保持与宇宙法则的一致性,这需要多模态感知来支撑抽象逻辑。在奥林匹克级别,图表通常是构成性的而非说明性的,包含文本中缺失的边界条件和空间对称性等关键约束。为弥合这一视觉-逻辑差距,我们引入了P1-VL,一套专为高级科学推理设计的开源视觉-语言模型。我们的方法融合了课程强化学习和智能体增强技术,实现推理过程中的迭代自验证。在HiPhO基准测试中,我们的旗舰模型P1-VL-235B-A22B成为首个获得12枚金牌的开源视觉语言模型,并在开放源代码模型中达到最先进水平。我们的智能体增强系统在全球排名第二,仅落后于Gemini-3-Pro。除了物理领域,P1-VL还展示了卓越的科学推理能力和泛化能力,在STEM基准测试中显著优于基础模型。通过开源P1-VL,我们迈出了通用物理智能的基础一步,以更好地将视觉感知与抽象物理定律对齐,推动机器科学发现。
科学推理
视觉-语言模型
物理智能
课程强化学习
智能体增强
论文聚焦于物理竞赛中的科学推理,强调视觉感知与抽象逻辑的结合,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Effective Reasoning Chains Reduce Intrinsic Dimensionality
Archiki Prasad, Mandar Joshi, Kenton Lee, Mohit Bansal, Peter Shaw
UNC Chapel Hill
IIT Bombay
思维链(CoT)推理及其变体显著提升了语言模型在复杂推理任务中的表现,但不同策略如何促进泛化的具体机制仍不明确。当前解释通常指向测试时计算量的增加或结构指导,但建立这些因素与泛化之间的定量联系仍具挑战性。本文提出内在维度作为衡量推理链有效性的量化指标,该指标量化了完成特定任务达到一定准确率所需的最小模型维度。通过固定模型架构并改变任务表述方式,我们发现有效的推理策略能持续降低任务的内在维度。在GSM8K数据集上使用Gemma-3 1B和4B验证后,观察到推理策略的内在维度与其在分布内和分布外数据上的泛化性能之间存在强负相关。我们的研究结果表明,有效的推理链通过更高效地压缩任务参数来促进学习,为分析推理过程提供了新的量化度量。
推理链
内在维度
任务泛化
量化分析
论文核心研究推理链对任务泛化能力的影响,直接关联推理能力主题。
分享
夯
0
拉
0
Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models
Mingzi Cao, Xingwei Tan, Mahmud Elahi Akhter, Marco Valentino, Maria Liakata et al.
North South university
Queen Mary University of London
演绎、归纳和溯因是人类逻辑思维的核心推理范式。尽管提升大型语言模型(LLM)的推理能力已引起大量研究关注,但这些基本范式在诱导泛化能力方面的系统性探索仍显不足。本研究探讨了这些核心推理范式之间的相互作用如何影响LLM的推理行为。为此,我们首先从符号任务中收集了一组新的推理轨迹数据集,每个任务针对三种基本范式之一,并抽象出具体世界知识。随后,我们研究了将这些技能有效引入LLM的方法,包括简单的微调以及更复杂的增加模型深度或将密集模型转换为专家混合模型的方法。我们在完全以自然语言表述且包含现实世界知识的真实领域外任务上对诱导模型进行了全面评估。结果表明,我们的方法在多个真实任务中实现了显著的性能提升(最高达14.60)。
推理范式
语言模型
领域外泛化
模型微调
专家混合模型
论文核心研究了演绎、归纳和溯因三种基本推理范式对LLM推理能力的影响,直接对应reasoning主题。
分享
夯
0
拉
0
Characterizing, Evaluating, and Optimizing Complex Reasoning
Haoran Zhang, Yafu Li, Zhi Wang, Zhilin Wang, Shunkai Zhang et al.
大型推理模型(LRMs)越来越多地依赖具有复杂内部结构的推理轨迹。然而,现有研究缺乏对三个基本问题的统一答案:(1)什么是高质量的推理;(2)如何可靠地评估长且隐式结构化的推理轨迹;(3)如何利用这些评估信号进行推理优化。为了解决这些挑战,本文提供了一个统一的视角。(1)引入ME$^2$原则,从宏观和微观层面定义推理质量的效率与效果。(2)基于该原则,将推理轨迹建模为有向无环图(DAG),并开发了一种基于DAG的成对评估方法,以捕捉复杂的推理结构。(3)基于此方法,构建了TRM-Preference数据集,并训练了一个思考奖励模型(TRM),用于大规模评估推理质量。实验表明,思考奖励可以作为有效的优化信号。在测试时,选择更优的推理路径可带来更好的结果(最高提升19.3%),在强化学习训练过程中,思考奖励也能提升推理能力和性能(跨多种任务最高提升3.9%)。
推理评估
DAG建模
奖励模型
复杂推理优化
论文聚焦于推理质量的定义、评估与优化,直接对应reasoning主题。
分享
Code
夯
0
拉
0
Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning
Milan Ganai, Katie Luo, Jonas Frey, Clark Barrett, Marco Pavone
Stanford University
NVIDIA
具身思维链(CoT)推理显著提升了视觉-语言-动作(VLA)模型的性能,但现有方法依赖于固定的模板来指定推理原语(如场景中的物体、高层计划、结构可操作性)。这些模板可能导致策略处理无关信息,从而干扰关键动作预测信号。本文提出R&B-EnCoRe方法,通过自监督精炼从互联网规模知识中引导具身推理。该方法将推理视为重要加权变分推断中的潜在变量,无需外部奖励、验证器或人工标注即可生成并提炼出特定具身策略的推理训练数据集。实验在多种具身系统(如机械臂、腿部导航、自动驾驶)上验证了该方法的有效性,结果显示其在操作成功率、导航得分和碰撞率等指标上均有显著提升。
具身推理
自监督学习
动作预测
VLA模型
变分推断
论文核心聚焦于具身推理的自监督引导,直接涉及推理机制与策略优化。
分享
夯
0
拉
0
Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning
Jiahui Zhou, Dan Li, Boxin Li, Xiao Zhang, Erli Meng et al.
时间序列是一种广泛存在于各类应用领域的数据类型,合理解决多样化的时间序列任务一直是长期目标。近年来,大型语言模型(LLMs)在强化学习(RL)推动下的推理能力取得进展,为需要长链推理(CoT)的任务提供了新机遇。然而,利用LLM进行时间序列推理仍处于初级阶段,受限于缺乏精心构建的时间序列CoT训练数据、数据调度效率低下以及缺乏专门针对此类数据的RL算法。本文提出VeriTime框架,通过数据合成、数据调度和RL训练来定制LLM以实现时间序列推理。首先,我们设计了一种数据合成流程,构建了一个带有可验证过程注释的时序-文本多模态数据集。其次,我们设计了一种数据调度机制,根据难度层次和任务分类安排训练样本。最后,我们开发了一种两阶段强化微调方法,利用可验证的过程级CoT数据,采用细粒度、多目标奖励机制。大量实验表明,VeriTime显著提升了LLM在多种时间序列推理任务中的表现。值得注意的是,它使3B、4B规模的紧凑模型能够达到或超越更大专有LLM的推理能力。
时间序列推理
强化学习
数据合成
LLM微调
CoT
论文核心聚焦于LLM的推理能力提升,特别是针对时间序列任务的推理过程优化。
分享
夯
0
拉
0
When to Trust the Cheap Check: Weak and Strong Verification for Reasoning
Shayan Kiyani, Sima Noorani, George Pappas, Hamed Hassani
宾夕法尼亚州立大学
随着大语言模型(LLM)在更广泛的验证循环中进行推理,系统内部使用诸如自一致性或代理奖励等低成本检查(称为弱验证),而外部用户则通过反馈对输出进行审查以确保结果可信(称为强验证)。这两种验证方式在成本和可靠性上存在显著差异。本文通过形式化弱-强验证策略,决定何时接受或拒绝基于弱验证的结果,以及何时转为强验证。我们引入了衡量错误接受、错误拒绝和强验证频率的指标,并证明最优策略具有双阈值结构。此外,我们开发了一种在线算法,在无需假设查询流、语言模型或弱验证器的前提下,可有效控制接受和拒绝错误。
验证机制
推理可靠性
弱验证
强验证
错误控制
论文聚焦于LLM的推理过程中的验证机制,涉及弱验证与强验证策略,直接关联推理能力的可靠性与优化。
分享
Code
夯
0
拉
0
MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu et al.
复旦大学
清华大学
美团
现有的基于可验证奖励的强化学习(RLVR)算法,如GRPO,依赖于僵化、统一且对称的信任区域机制,这与大型语言模型(LLMs)复杂的优化动态存在根本性不匹配。本文识别出这些方法中的三个关键挑战:(1)由于硬截断的二值截止导致的梯度利用效率低下;(2)因忽略词元分布而产生的概率质量不敏感;(3)正负样本之间信用分配模糊性差异导致的信号可靠性不对称。为弥合这些差距,我们提出了质量自适应软策略优化(MASPO),一个统一框架,旨在协调这三个维度。MASPO集成了可微分的软高斯门控以最大化梯度效用,质量自适应限制器以平衡概率谱上的探索,并非对称风险控制器以使更新幅度与信号置信度一致。大量实验表明,MASPO是一个强大且一体化的RLVR解决方案,显著优于现有基线。
强化学习
LLM推理
RLVR
梯度优化
概率质量控制
论文聚焦于提升LLM的推理能力,提出改进RLVR算法以增强推理鲁棒性和样本效率。
分享
夯
0
拉
0
Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar
印度理工学院技术学院,印度阿萨姆邦古瓦哈提
在多智能体信息检索(IR)流水线中,基于LLM的代理通过交换中间推理(即思维链,Chain-of-Thought,CoT)来完成搜索和排序等任务。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的评估指标:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。实验在五个基准上测试了四个Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确率无显著相关性,揭示了当前基于准确率的推理能力排行榜存在盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。
Chain-of-Thought
推理评估
多智能体系统
LLM评估
论文聚焦于Chain-of-Thought(CoT)推理的质量评估,直接涉及LLM/Agent的推理能力。
分享
夯
0
拉
0
MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions
Hui Min Wong, Philip Heesen, Pascal Janetzky, Martin Bendszus, Stefan Feuerriegel
LMU Munich, Munich, Germany
Munich Center for Machine Learning, Germany
Department of Neuroradiology, Heidelberg University, Heidelberg, Germany
大型语言模型(LLMs)在医学诊断任务中的应用日益增多。在临床实践中,正确的诊断通常无法仅从初始患者表现中直接得出,而需要通过系统性病史采集和迭代提问来排除多种潜在疾病并解决不确定性。本文提出MedClarify,一种信息寻求型AI代理,能够生成后续问题以支持诊断决策。该代理首先计算类似鉴别诊断的候选诊断列表,然后主动生成旨在减少诊断不确定性的后续问题。通过选择预期信息增益最高的问题,MedClarify实现了有针对性、基于不确定性的推理,从而提升诊断性能。实验表明,与标准单次提示LLM基线相比,该方法可将诊断错误率降低约27个百分点。
医学诊断
信息增益
AI代理
推理能力
对话式AI
论文核心聚焦于通过生成后续问题进行诊断推理,属于推理能力的典型应用。
分享
夯
0
拉
0
Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy
Bianca Raimondi, Maurizio Gabbrielli
意大利博洛尼亚大学
大型语言模型(LLMs)的黑箱特性要求超越表面性能指标的新评估框架。本研究采用布卢姆分类法作为分层视角,探讨LLM内部神经表示中的认知复杂性。通过分析不同LLM的高维激活向量,我们检验了从基本回忆(Remember)到抽象综合(Create)的不同认知层级是否在模型残差流中线性可分。结果表明,线性分类器在所有布卢姆层级上均达到约95%的平均准确率,证明认知层级编码在模型表示的线性可访问子空间中。这些发现表明,模型在前向传播早期就解决了提示的认知难度,且随着层数增加,表示逐渐变得可分离。
认知层级
线性探测
布卢姆分类法
神经表示
可解释性
论文通过Bloom分类法研究LLM的认知复杂性,直接涉及推理能力的层级分析。
分享
夯
0
拉
0
Continual learning and refinement of causal models through dynamic predicate invention
Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach
布里斯托大学
在复杂环境中高效导航需要智能体理解其世界的底层逻辑,但传统世界建模方法常面临样本效率低、透明度不足和可扩展性差的问题。本文提出一种框架,通过将连续模型学习与修复集成到智能体的决策循环中,利用元解释学习和谓词发明技术,发现语义上有意义且可复用的抽象概念,从而构建解耦的高质量概念层次结构。实验表明,该方法在具有复杂关系动态的领域中表现优异,样本效率远超基于PPO神经网络的基准方法。
因果推理
符号学习
持续学习
谓词发明
抽象概念构建
论文聚焦于因果模型的持续学习与推理,涉及符号逻辑和抽象概念构建,属于推理能力的核心研究。
分享
夯
0
拉
0
Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering
Kishan Maharaj, Nandakishore Menon, Ashita Saxena, Srikanth Tamilselvam
IBM Research
随着大型语言模型(LLMs)在需要处理长代码上下文的软件工程任务中应用日益广泛,其在不同输入条件下的鲁棒性仍不明确。本文通过受控消融实验系统研究了长上下文代码问答任务,测试模型对答案格式、干扰项和上下文规模的敏感性。我们扩展了LongCodeBench Python数据集,新增COBOL和Java的问答集,并在三种设置下评估了最先进的模型:(i)打乱的多选选项,(ii)开放性问题,以及(iii)包含相关和对抗性无关信息的“针在 haystack”上下文。结果表明,在打乱的多选选项和开放性问题中,模型性能显著下降,并且在存在无关线索时表现出脆弱性。我们的研究揭示了当前长上下文评估的局限性,并为评估遗留系统和现代系统的代码推理能力提供了更广泛的基准。
代码理解
长上下文推理
模型鲁棒性
软件工程
论文聚焦于LLM在长上下文代码问答中的推理鲁棒性,直接涉及推理能力评估与挑战。
分享
夯
0
拉
0
BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
Yunseung Lee, Subin Kim, Youngjun Kwak, Jaegul Choo
KakaoBank Corp.
South Korea Advanced Institute of Science and Technology
基于大语言模型(LLMs)的聊天机器人在金融领域,特别是在数字银行中被广泛应用,以处理客户关于存款、储蓄和贷款等产品的咨询。然而,这些模型在核心银行业务计算任务中仍表现出较低的准确性,例如总支付估算、不同利率产品的比较以及提前还款条件下的利息计算。此类任务需要多步骤的数值推理和对银行产品的上下文理解,但现有LLMs常出现系统性错误,如误解产品类型、错误应用条件或基本计算失误。为解决这一问题,本文提出了BankMathBench,一个反映真实银行业务任务的领域特定数据集。该数据集分为三个难度级别:基础、中级和高级,分别对应单一产品推理、多产品比较和多条件场景。实验表明,使用BankMathBench进行训练后,开源LLMs在公式生成和数值推理准确性方面均有显著提升,证明了该数据集在增强领域特定推理能力方面的有效性。
数值推理
银行场景
LLM基准测试
多步骤推理
论文聚焦于LLM在银行场景中的数值推理能力,提出专门的基准测试,属于推理能力的核心研究。
分享
夯
0
拉
0
ReIn: Conversational Error Recovery with Reasoning Inception
Takyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma et al.
伊利诺伊大学厄巴纳-香槟分校
亚马逊
由大型语言模型(LLMs)驱动并集成工具的对话代理在固定任务导向型对话数据集上表现出色,但在面对用户引发的意外错误时仍存在脆弱性。本文不关注错误预防,而是聚焦于错误恢复,需要准确诊断错误对话上下文并执行适当的恢复计划。在无法进行模型微调或提示修改的现实约束下,本文探索代理是否能从上下文有缺陷的交互中恢复,并如何在不改变模型参数和提示的情况下调整其行为。为此,本文提出了一种测试时干预方法——推理起始(ReIn),通过在代理的决策过程中植入初始推理来实现错误恢复。具体而言,一个外部起始模块识别对话上下文中的预定义错误并生成恢复计划,随后将其整合到代理的内部推理过程中以指导纠正操作,而无需修改其参数或系统提示。通过系统模拟直接阻碍用户目标完成的对话失败场景(如用户的模糊和不支持请求),ReIn在多种代理模型和起始模块组合中显著提升了任务成功率,并泛化到未见过的错误类型。此外,它始终优于显式提示修改方法,证明了其作为高效、实时方法的实用性。对其实现机制的深入分析表明,与ReIn联合定义恢复工具可作为一种安全有效的策略,用于提升对话代理的鲁棒性,而无需修改主干模型或系统提示。
对话代理
错误恢复
推理机制
测试时干预
非参数调整
论文核心围绕推理机制展开,提出基于推理的对话错误恢复方法ReIn。
分享
Code
夯
0
拉
0
Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History
Serin Kim, Sangam Lee, Dongha Lee
韩国科学技术院(KAIST)计算机科学与工程系
大型语言模型已推动了网络代理的发展,但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节,实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战,我们提出了Persona2Web,这是首个用于评估真实开放网络中个性化网络代理的基准测试,基于澄清以实现个性化的原理,要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包括:(1)揭示长期跨度内隐含偏好的用户历史;(2)需要代理推断隐含用户偏好的模糊查询;(3)一个注重推理的评估框架,支持对个性化的细粒度评估。我们在多种代理架构、主干模型、历史访问方案以及不同模糊程度的查询上进行了广泛实验,揭示了个性化网络代理行为中的关键挑战。为保证可复现性,我们的代码和数据集已公开在https://anonymous.4open.science/r/Persona2Web-73E8。
个性化代理
上下文推理
用户历史建模
模糊查询处理
基准测试
论文聚焦于基于用户历史的上下文推理,强调个性化代理在模糊查询下的推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency
Victoria Lin, Xinnuo Xu, Rachel Lawrence, Risa Ueno, Amit Sharma et al.
剑桥大学计算机科学系
微软研究院
尽管大型语言模型(LLMs)在推理基准测试中表现出色,但它们在面对反事实问题时表现脆弱,表明其因果推理能力存在不足。虽然近期研究表明标注的反事实任务可以作为LLMs因果推理能力的基准,但生成足够规模的反事实数据以覆盖潜在空间仍面临挑战。本文提出了一种轻量级的推理时方法——双重反事实一致性(DCC),用于衡量和引导LLMs进行因果推理的能力。无需标注的反事实数据,DCC验证了模型执行因果推理两个关键要素的能力:因果干预和反事实预测。通过DCC,我们评估了多种领先LLMs在不同推理任务和干预下的因果推理能力,并展示了DCC作为训练无关的测试时拒绝采样标准的有效性,证明其可直接提升多个模型家族在推理任务中的性能。
因果推理
反事实一致性
推理评估
LLM优化
论文聚焦于因果推理能力的评估与提升,直接涉及LLM的推理机制。
分享
夯
0
拉
0
Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents
Wenxuan Ding, Nicholas Tomlin, Greg Durrett
New York University
随着大型语言模型(LLMs)被用于解决需要与环境交互以获取信息的复杂问题,如何在停止探索并提交答案时权衡成本与不确定性成为关键。本文提出了一种名为Calibrate-Then-Act(CTA)的框架,使LLM能够显式地推理成本-不确定性权衡,并据此进行更优的环境探索。该方法将信息检索和编程等任务形式化为不确定性下的顺序决策问题,并通过引入先验环境状态作为上下文输入,提升LLM的决策质量。实验结果表明,在信息检索问答和简化编程任务中,CTA显著提高了代理发现最优决策策略的能力。
cost-aware reasoning
sequential decision-making
LLM agents
environment interaction
论文核心研究LLM在不确定环境中的成本-不确定性权衡推理机制,属于推理能力的直接应用。
分享
Code
夯
0
拉
0
SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation
Jaid Monwar Chowdhury, Chi-An Fu, Reyhaneh Jabbarvand
孟加拉国达卡工程技术大学
台湾台北国立台湾大学
美国伊利诺伊大学厄巴纳-香槟分校
由于高级程序意图与指针运算和手动内存管理的严格语法约束之间存在语义差距,C语言的自动化单元测试生成仍是一个重大挑战。尽管大语言模型(LLMs)具有强大的生成能力,但直接从意图生成代码常常导致代码生成失败,即模型在未充分理解程序结构、约束和语义的情况下提前生成代码,从而产生无法编译的测试用例、幻觉函数签名、分支覆盖率低以及语义无关的断言等问题。本文提出SPARC,一个基于神经符号系统的情景化框架,通过四个阶段解决这一问题:(1)控制流图(CFG)分析,(2)操作映射以将LLM推理锚定在验证过的实用工具中,(3)路径导向的测试合成,(4)使用编译器和运行时反馈的迭代自校正验证循环。我们在59个现实世界和算法主题上评估了SPARC,其行覆盖率比基线方法提高了31.36%,分支覆盖率提高了26.01%,突变得分提高了20.78%,在复杂主题上的表现可与符号执行工具KLEE相媲美。SPARC通过迭代修复保留了94.3%的测试用例,并生成了开发者评分更高的可读性和可维护性代码。通过将LLM推理与程序结构对齐,SPARC为工业级遗留C代码库的测试提供了一条可扩展的路径。
LLM推理
单元测试生成
神经符号系统
路径覆盖
C语言测试
论文核心围绕LLM的推理能力,通过结构化分析和路径生成提升测试生成质量。
分享
夯
0
拉
0
Retrieval Augmented Generation of Literature-derived Polymer Knowledge: The Example of a Biodegradable Polymer Expert System
Sonakshi Gupta, Akhlak Mahmood, Wei Xiong, Rampi Ramprasad
佐治亚理工学院计算科学与工程学院
佐治亚理工学院材料科学与工程学院
聚合物文献中包含大量实验知识,但这些知识通常以非结构化文本和不一致术语的形式存在,使得系统性检索和推理变得困难。现有工具通常仅能提取孤立的、研究特定的事实,无法保留回答更广泛科学问题所需的跨研究上下文。检索增强生成(RAG)通过结合大语言模型(LLMs)与外部检索提供了一种有前景的解决方案,但其效果高度依赖领域知识的表示方式。本文开发了两种检索流程:一种是基于密集语义向量的方法(VectorRAG),另一种是基于图的方法(GraphRAG)。利用超过1000篇聚羟基烷酸酯(PHA)论文,我们构建了保留上下文的段落嵌入和一个支持实体消歧和多跳推理的规范化结构化知识图谱。通过标准检索指标、与通用最先进系统如GPT和Gemini的比较以及领域化学家的定性验证,评估了这些流程。结果表明,GraphRAG在精度和可解释性方面表现更好,而VectorRAG提供了更广泛的召回率,突显了互补性的权衡。专家验证进一步确认,定制化的流程,尤其是GraphRAG,能够生成具有坚实依据、引用可靠的响应,并具有较强的领域相关性。通过将每一条陈述都基于证据,这些系统使研究人员能够浏览文献、比较不同研究的结果并发现难以手动提取的模式。更广泛地说,这项工作建立了一个实用框架,用于使用精选语料库和检索设计构建材料科学助手,减少对专有模型的依赖,同时实现大规模可信的文献分析。
RAG
知识图谱
多跳推理
材料科学
文献分析
论文聚焦于通过RAG增强LLM的推理能力,特别是针对材料科学领域的知识提取与多跳推理。
分享
夯
0
拉
0
From Growing to Looping: A Unified View of Iterative Computation in LLMs
Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer
Technical University of Munich
Google, Paradigms of Intelligence Team
循环(reusing a block of layers across depth)和深度增长(depth growing,通过复制中间层训练浅到深模型)均与更强的推理能力相关,但其关系尚不明确。本文提供了一种机制性统一:循环和深度增长模型在深度方向上表现出收敛的特征,包括对后期层的依赖增加以及与循环或增长块对齐的重复模式。这些共享特征支持了它们的增益来源于共同形式的迭代计算的观点。基于这一联系,我们展示了这两种技术具有适应性和可组合性:将推理时的循环应用于深度增长模型的中间块,可在某些推理原语上将准确率提高至原来的2倍,尽管该模型从未被训练为循环。此外,这两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外,使用更高质量、数学密集型的冷却混合物时,深度增长模型能获得最大的推理增益,这可以通过适配中间块进行循环进一步增强。总体而言,我们的结果将深度增长和循环定位为互补且实用的方法,用于诱导和扩展迭代计算以提升推理能力。
LLM
推理能力
迭代计算
深度增长
循环结构
论文聚焦于LLM的迭代计算机制,直接关联到推理能力提升,是推理能力研究的核心内容。
分享
夯
0
拉
0
Learning to Learn from Language Feedback with Social Meta-Learning
Jonathan Cook, Diego Antognini, Martin Klissarov, Claudiu Musat, Edward Grefenstette
Google DeepMind
大型语言模型(LLMs)在对话环境中往往难以从纠正性反馈中学习。它们很少主动寻求此类反馈,即使在存在歧义的情况下,这使得对话显得静态、单向且缺乏人类对话的适应性。为了解决这些限制,本文借鉴了人类社会元学习(SML)的概念——即学习如何从他人那里学习的过程。我们将SML形式化为一种微调方法,训练LLMs在模拟教学对话中主动寻求并学习语言反馈,将静态任务转化为互动式社会学习问题。SML有效地教会模型利用对话来解决单次交互无法解决的问题。这种能力具有跨领域泛化性;在数学问题上训练的SML模型能够更好地利用反馈解决编码问题,反之亦然。此外,尽管仅在完全指定的问题上进行训练,这些模型在信息不完整、关键信息分多轮揭示的任务中表现更佳。当面对这种模糊性时,经过SML训练的模型较少尝试过早回答,并更倾向于请求所需的信息。这项工作提出了一种可扩展的方法,用于开发能够有效从语言反馈中学习的人工智能系统。
语言反馈
元学习
对话系统
推理能力
任务解决
论文聚焦于LLM如何通过语言反馈进行学习,强调推理与问题解决能力的提升。
分享
夯
0
拉
0
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
Zhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han et al.
北卡罗来纳大学教堂山分校
纽约大学
耶鲁大学
独立研究员
测试时扩展可以通过聚合随机推理轨迹来提升模型性能。然而,在有限预算下实现样本高效的测试时自一致性仍是一个开放性挑战。本文提出PETS(Principled and Efficient Test-Time Self-Consistency),通过优化框架对轨迹分配进行系统研究。核心是自一致性率,定义为与无限预算多数投票的一致性。该方法在离线和在线场景中均表现出色,实验表明PETS在GPQA数据集上实现了完美的自一致性,并显著减少了采样预算。
self-consistency
trajectory allocation
test-time scaling
reasoning optimization
论文聚焦于提升模型推理一致性,通过轨迹分配优化测试时的推理过程,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Language Statistics and False Belief Reasoning: Evidence from 41 Open-Weight LMs
Sean Trott, Samuel Taylor, Cameron Jones, James A. Michaelov, Pamela D. Rivière
Rutgers University - Newark
UC San Diego
Stony Brook University
MIT
关于语言模型(LMs)心理状态推理的研究有助于理解人类社会认知理论,并加深对LM自身能力的认识。然而,现有研究多基于少量封闭源模型,限制了对心理理论和LM能力的严格测试。本文通过评估41个开放权重模型的心理状态推理行为,复现并扩展了虚假信念任务的相关研究。结果显示,34%的LM能感知隐含的知识状态,但均无法完全解释人类的行为。更大的模型表现出更高的敏感性和心理测量预测力。此外,研究提出一个新假设:当知识状态由非事实性动词(如‘John thinks’)提示时,人类和LM都更倾向于归因虚假信念。该结果表明,使用更多开放权重模型样本有助于测试人类认知理论和评估LM能力。
虚假信念推理
语言模型
心理状态推理
认知科学
论文聚焦于语言模型的虚假信念推理能力,属于推理能力研究的核心内容。
分享
夯
0
拉
0
Improving Interactive In-Context Learning from Natural Language Feedback
Martin Klissarov, Jonathan Cook, Diego Antognini, Hao Sun, Jingling Li et al.
Google DeepMind
在人类学习中,根据纠正性反馈调整思维过程是一项关键能力,尤其在协作环境中。然而,当前大语言模型的训练范式主要依赖于静态语料库建模,忽视了动态适应上下文所需的交互反馈机制。本文提出一种框架,将交互式上下文学习能力视为可训练的独立技能,而非涌现特性。通过构建信息不对称驱动的多轮教学互动,该方法显著提升了模型从语言反馈中学习的能力。实验表明,较小模型的多轮性能接近一个数量级更大的模型,并且在数学问题上的交互训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明,这种改进源于上下文可塑性的增强。最后,该方法为模型自我改进提供了一条统一路径。
推理能力
反馈学习
上下文学习
自我改进
论文聚焦于模型通过自然语言反馈进行交互式上下文学习,显著提升推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Evidence-Grounded Subspecialty Reasoning: Evaluating a Curated Clinical Intelligence Layer on the 2025 Endocrinology Board-Style Examination
Amir Hosseinian, MohammadReza Zare Shahneh, Umer Mansoor, Gilbert Szeto, Kirill Karlin et al.
Stanford University
背景:大型语言模型在一般医学考试中表现出色,但在专科临床推理方面仍面临挑战,因为指南快速演变且证据层次复杂。方法:我们评估了基于证据的临床推理系统January Mirror,在120道内分泌学委员会风格考试题目上与前沿LLM(如GPT-5、Gemini-3-Pro)进行比较。Mirror整合了精选的内分泌和心血管代谢证据库,并采用结构化推理架构生成与证据关联的输出。结果:Mirror准确率达到87.5%,超过人类参考值62.3%及所有前沿LLM。结论:Mirror提供了可追溯的证据引用,证明精选证据在专科临床推理中优于无约束网络检索,并支持临床部署的可审计性。
临床推理
证据溯源
专科医学
LLM对比实验
论文聚焦于临床推理系统在内分泌学考试中的表现,强调基于证据的推理架构与LLM的对比。
分享
夯
0
拉
0
ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization
Junbo Jacob Lian, Yujun Sun, Huiling Chen, Chaoyu Zhang, Chung-Piaw Teo
西北大学
文州百药连锁公司
文州大学
香港城市大学
大型语言模型(LLMs)可以将自然语言转化为优化代码,但静默故障带来了严重风险:执行并返回求解器可行解的代码可能包含语义错误,导致组合问题中可行性与正确性之间的差距高达90个百分点。本文提出ReLoop,从两个互补方向解决静默故障。结构化生成将代码生成分解为四阶段推理链(理解、形式化、合成、验证),模仿专家建模实践,并通过显式变量类型推理和自验证防止公式错误。行为验证通过测试公式是否对基于求解器的参数扰动做出正确响应来检测生成过程中未被发现的错误,无需依赖外部语义信号。两种机制相辅相成:结构化生成在复杂组合问题上表现优异,而行为验证在局部公式缺陷问题上贡献最大。结合IIS增强诊断的执行恢复,ReLoop在最强模型上将正确性从22.6%提升至31.1%,执行率从72.1%提升至100.0%,并在五种涵盖三种范式(基础模型、SFT、RL)和三个基准的模型中均取得一致提升。此外,还发布了RetailOpt-190,包含190个针对多约束交互场景的零售优化案例,这些是LLMs最常失败的领域。
LLM
推理能力
代码生成
行为验证
优化问题
论文聚焦于LLM在优化问题中的推理过程,提出结构化生成与行为验证机制以提升推理正确性。
分享
Code
夯
0
拉
0
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models
Sen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang et al.
State Key Laboratory of Artificial Intelligence, Peking University
Center for Data Science, Peking University
Center for Machine Learning Research, Peking University
当前多模态模型研究面临一个关键挑战:增强生成能力往往会损害理解能力,反之亦然。本文分析了这一权衡关系,并识别出生成与理解之间潜在冲突可能是其主要原因。为解决此问题,我们提出了Reason-Reflect-Refine(R3)框架。该创新算法将单步生成任务重构为“生成-理解-再生成”的多步过程。通过在生成过程中显式利用模型的理解能力,成功缓解了优化困境,实现了更强的生成结果和与生成过程相关的理解能力提升。这为设计下一代统一的多模态模型提供了有价值的见解。代码可在https://github.com/sen-ye/R3获取。
多模态模型
生成与理解
推理框架
模型优化
论文聚焦于模型的理解与生成之间的优化矛盾,提出基于推理的多步骤框架,直接关联推理能力提升。
分享
Code
夯
0
拉
0
Recursive Concept Evolution for Compositional Reasoning in Large Language Models
Sarim Chaudhry
普渡大学
尽管大型语言模型在许多复杂推理任务中表现出色,但在需要组合推理的基准测试(如ARC-AGI-2、GPQA、MATH、BBH和HLE)中,其准确性显著下降。现有方法通过扩展标记级搜索(如思维链提示、自一致性或强化学习)来提升推理能力,但未改变模型的潜在表示空间。当所需抽象未被编码时,性能会崩溃。本文提出递归概念演化(RCE)框架,使预训练语言模型能够在推理过程中动态修改其内部表示几何结构。RCE引入了动态生成的低秩概念子空间,在检测到表示不足时生成,并通过最小描述长度准则选择、协同时合并以及约束优化进行整合,以保持稳定性。该方法允许模型构建新的抽象而非简单重组已有概念。实验表明,将RCE集成到Mistral-7B中后,在多个组合推理基准上均取得显著提升。
compositional reasoning
representation learning
large language models
concept evolution
论文聚焦于提升大型语言模型的组合推理能力,直接涉及推理机制的改进与创新。
分享
夯
0
拉
0
CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving
Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren, Pepijn Kooij, Elsefien Tulleners et al.
代尔夫特理工大学交通与规划学院,工程与认知科学系
代尔夫特理工大学机器人学系,机械工程与认知科学系
代尔夫特理工大学人机交互中心,代尔夫特理工大学技术学院
代尔夫特理工大学机械工程系,代尔夫特理工大学技术学院
基础模型,包括视觉语言模型,越来越多地用于自动驾驶中以解释场景、推荐行动并生成自然语言解释。然而,现有的评估方法主要关注结果导向的性能,如安全性和轨迹准确性,而未确定模型决策是否反映人类相关因素。因此,尚不清楚此类模型生成的解释是否对应真正的推理响应决策,还是仅仅是事后合理化。为解决这一问题,我们提出了CARE Drive(上下文感知推理评估驾驶),一个与模型无关的框架,用于评估应用于自动驾驶的视觉语言模型的推理响应性。CARE Drive通过受控上下文变化比较基线和增强推理模型的决策,以评估人类原因是否因果影响决策行为。该框架采用两阶段评估过程。提示校准确保输出稳定。随后系统化的上下文扰动测量决策对人类原因(如安全边界、社会压力和效率约束)的敏感性。我们在一个涉及竞争规范考虑的自行车超车场景中展示了CARE Drive。结果显示,明确的人类原因显著影响模型决策,提高了与专家建议行为的一致性。然而,响应性在不同上下文因素之间存在差异,表明对不同类型原因的敏感性不均衡。这些发现提供了实证证据,表明可以在不修改模型参数的情况下系统评估基础模型的推理响应性。
视觉语言模型
自动驾驶
推理评估
上下文感知
模型评估
论文聚焦于评估视觉语言模型在自动驾驶中的推理响应性,直接涉及推理能力的评估机制。
分享
夯
0
拉
0
Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL
Yihan Wang, Peiyu Liu, Runyu Chen, Wei Xu
中国人民大学商学院
尽管文本到SQL任务近期取得了显著进展,但在实际场景中仍难以有效应用。这一问题源于对单一静态工作流的依赖,严重限制了其在分布外和长尾场景中的扩展性。为解决此问题,本文提出SquRL,一种强化学习框架,旨在增强LLM在动态工作流构建中的推理能力。通过理论与实证分析,我们证明最优动态策略始终优于最佳静态工作流,性能提升主要由候选工作流间的异质性驱动。为此,我们设计了一种基于规则的奖励函数,并引入两种有效的训练机制:动态演员掩码以鼓励更广泛的探索,以及伪奖励以提高训练效率。实验表明,动态工作流构建方法在广泛使用的文本到SQL基准测试中表现优异,尤其在复杂和分布外查询上效果显著。
Text-to-SQL
Reinforcement Learning
Dynamic Workflow
Reasoning Enhancement
论文聚焦于通过动态工作流提升LLM的推理能力,直接涉及推理机制的改进。
分享
Code
夯
0
拉
0
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen et al.
电子科技大学通信研究院
香港大学工程学院
大型语言模型(LLMs)正在改变编程范式,但生成算法复杂且鲁棒的代码仍是一个关键挑战。激励LLMs的深度推理能力对于克服这一障碍至关重要。强化微调(RFT)已被视为解决此问题的一种有前途的策略。然而,现有方法大多忽视了测试用例中固有的异构难度和粒度,导致奖励信号分布不均,训练过程中梯度更新出现偏差。为此,我们提出了TAROT(Test-driven and Capability-adaptive Curriculum Reinforcement Fine-Tuning),为每个问题系统构建了一个四层测试套件(基础、中级、复杂、边界),提供一个受控的难度环境用于课程设计和评估。关键在于,TAROT将课程进展与原始奖励分数解耦,实现基于能力的评估,并从多个课程策略中进行原则性选择,而非偶然的测试用例难度组合。该设计促进了稳定的优化和更高效的技能获取。大量实验结果表明,RFT在代码生成中的最佳课程与模型的内在能力密切相关,能力较弱的模型通过由易到难的课程获得更大提升,而能力较强的模型则在先难后易的课程中表现更佳。TAROT提供了一种可复现的方法,根据模型的能力自适应地定制课程设计,从而持续提高生成代码的功能正确性和鲁棒性。
代码生成
强化学习
课程学习
推理能力
LLM微调
论文聚焦于通过强化学习提升LLM的代码生成能力,强调推理能力的激励与优化。
分享
Code
夯
0
拉
0
World-Model-Augmented Web Agents with Action Correction
Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li et al.
浙江大学
腾讯AI实验室
基于大语言模型的网络代理在自动化网络任务方面展现出巨大潜力。然而,当前网络代理由于难以预测环境变化,导致推理出的动作不够合理,并且可能缺乏对执行风险的全面认知,从而过早采取高风险动作,造成损失并导致任务失败。为了解决这些问题,本文提出WAC,一种结合模型协作、后果模拟和反馈驱动动作优化的网络代理系统。通过引入多代理协作机制,使动作模型能够咨询作为网络环境专家的世界模型以获取战略指导;同时利用环境状态转移动态的先验知识来增强候选动作提案。为了实现风险感知的任务执行,本文引入了一个两阶段的推理链:世界模型模拟动作结果,法官模型则对其进行审查并在必要时触发动作修正反馈。实验表明,WAC在VisualWebArena和Online-Mind2Web数据集上分别取得了1.8%和1.3%的绝对性能提升。
web agents
world model
action correction
risk-aware reasoning
multi-agent collaboration
论文重点研究了基于世界模型的推理与行动修正机制,直接涉及LLM/Agent的推理能力提升。
分享
夯
0
拉
0
EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
Zelin Xu, Yupu Zhang, Saugat Adhikari, Saiful Islam, Tingsong Xiao et al.
佛罗里达大学计算机与信息科学工程系
在计算机视觉领域,对多模态大语言模型(MLLMs)进行空间推理的基准测试因其对具身人工智能和需要与物理世界精确交互的智能体系统的重要性而受到越来越多的关注。然而,在地球影像上的空间推理仍相对滞后,因为其涉及将物体定位在地理参考图像中,并利用视觉线索和矢量几何坐标(如二维边界框、折线和多边形)进行定量方向、距离和拓扑关系推理。现有的地球影像基准主要关注二维空间定位、图像描述和粗略空间关系,缺乏对定量方向和距离推理、系统性拓扑关系以及超出边界框的复杂对象几何的支持。为弥补这一不足,我们提出了EarthSpatialBench,一个用于评估MLLMs在地球影像上空间推理能力的综合性基准。该基准包含超过325,000个问答对,涵盖:(1) 关于空间距离和方向的定性和定量推理;(2) 系统性的拓扑关系;(3) 单对象查询、对象对查询和组合聚合组查询;以及(4) 通过文本描述、视觉叠加和显式几何坐标(包括二维边界框、折线和多边形)表达的对象引用。我们在开源和专有模型上进行了广泛的实验,以识别MLLMs在空间推理方面的局限性。
空间推理
多模态模型
地球影像
基准测试
视觉与几何结合
论文聚焦于多模态大语言模型在地球影像中的空间推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
NeuroSymActive: Differentiable Neural-Symbolic Reasoning with Active Exploration for Knowledge Graph Question Answering
Rong Fu, Yang Li, Zeyu Zhang, Jiekai Wu, Yaohua Liu et al.
澳门大学
中国科学院大学
澳大利亚国立大学
暨南大学
尽管大规模预训练语言模型和神经推理系统在许多自然语言任务中取得了进展,但它们在需要精确、结构化多跳推理的知识密集型查询上仍面临挑战。知识图谱提供了事实基础的紧凑符号表示,但将其与神经模型结合并不简单:将图事实嵌入提示中会导致效率低下和脆弱性,而纯粹的符号或搜索方法在检索成本和梯度优化方面存在不足。本文提出NeuroSymActive,一种模块化框架,结合了可微神经符号推理层与主动价值引导的探索控制器,用于知识图谱问答。该方法将软统一风格的符号模块与神经路径评估器及蒙特卡洛风格的探索策略相结合,优先扩展高价值路径。实验结果表明,NeuroSymActive在标准KGQA基准测试中实现了较高的答案准确率,同时减少了昂贵的图查找和模型调用次数,优于常见的检索增强基线。
知识图谱问答
神经符号推理
多跳推理
主动探索
论文聚焦于知识图谱问答中的神经符号推理,强调多跳推理与结构化逻辑推导,属于推理能力的核心研究。
分享
夯
0
拉
0
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
Zhixing Zhang, Jesen Zhang, Hao Liu, Qinhan Lv, Jing Yang et al.
Sun Yat-sen University
农业基础模型虽在预测和监测方面表现出色,但缺乏语言推理和交互能力,限制了其在实际农业工作流程中的应用。同时,大语言模型(LLMs)擅长文本理解和生成,却无法直接处理高维异构的农业数据集。为此,本文提出一个面向农业科学的智能体框架,提供Python执行环境AgriWorld,支持对田块的地理空间查询、遥感时间序列分析、作物生长模拟及任务特定预测器(如产量、胁迫和病害风险)。在此基础上设计了一个多轮LLM代理Agro-Reflective,通过编写代码、观察执行结果并进行反思的循环过程,逐步优化分析。此外,引入AgroBench基准测试集,涵盖多样化的农业问答任务,包括查找、预测、异常检测和反事实分析。实验表明,该方法优于纯文本和直接工具使用基线,验证了基于执行驱动的反思机制在农业推理中的有效性。
农业推理
代码执行代理
LLM反思机制
多模态数据分析
论文聚焦于通过代码执行与反思循环实现农业领域的可靠推理,直接涉及LLM的推理能力提升。
分享
夯
0
拉
0
Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque
Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri
HITZ Center - Ixa, University of the Basque Country UPV/EHU
物理常识推理是人类智能的重要组成部分,使个体能够理解环境、预测事件并导航物理空间。近年来,自然语言处理领域对推理任务的兴趣不断增长。然而,此前尚未有研究考察大语言模型(LLMs)在低资源语言如巴斯克语中的非问答型物理常识推理任务表现。本文以意大利语GITA为起点,提出了BasPhyCo数据集,这是首个针对巴斯克语的标准及方言变体的非问答型物理常识推理数据集。我们从三个层次评估了模型的常识理解能力:区分合理与不合理叙述(准确性)、识别导致叙述不合理的冲突元素(一致性)以及确定造成不合理性的具体物理状态(可验证性)。实验结果表明,在可验证性方面,LLMs在低资源语言如巴斯克语中表现出有限的物理常识推理能力,尤其是在处理方言变体时。
物理常识推理
低资源语言
LLM评估
巴斯克语
非问答任务
论文聚焦于物理常识推理任务,评估LLM在低资源语言中的推理能力,属于reasoning主题的核心研究。
分享
夯
0
拉
0
Unlocking Reasoning Capability on Machine Translation in Large Language Models
Sara Rajaee, Sebastian Vincent, Alexandre Berard, Marzieh Fadaee, Kelly Marchisio et al.
阿姆斯特丹大学
面向推理的大型语言模型(RLMs)通过生成显式中间推理,在数学和编程等任务中取得了显著进展。然而,其在机器翻译(MT)中的影响仍鲜有研究。本文系统评估了多个开源和闭源RLMs在WMT24++基准上的表现,发现启用显式推理会普遍降低翻译质量。分析表明,MT的推理轨迹高度线性,缺乏修订、自我纠正和替代翻译的探索,限制了其实用性。此外,从更强模型注入高质量推理轨迹并不能可靠地提升较弱模型的表现。为解决这一不匹配问题,我们提出了一种针对翻译任务的结构化推理框架,基于多步骤草稿、充分性优化、流畅性改进和选择性迭代修订。我们构建了一个动态结构化推理轨迹的合成数据集,并在此基础上对大型推理模型进行后训练。实验表明,该方法在标准翻译微调和注入通用推理基线方法上均有显著提升。我们的研究结果表明,推理必须具有任务结构才能有效提升机器翻译。
machine translation
reasoning framework
structured reasoning
large language models
论文聚焦于LLM的推理能力在机器翻译中的应用与改进,是该主题的核心研究。
分享
夯
0
拉
0
Universal Algorithm-Implicit Learning
Stefano Woerner, Seong Joon Oh, Christian F. Baumgartner
科学卓越中心(Cluster of Excellence “Machine Learning: New Perspectives for Science”),图宾根大学,德国图宾根
瑞士卢塞恩大学健康科学学院,瑞士卢塞恩
当前元学习方法受限于固定特征和标签空间的任务分布,适用性有限。此外,现有文献中对“通用”和“通用型”等术语使用不一致,缺乏明确定义,影响可比性。本文引入了一个理论框架,形式化定义了实用的通用性,并区分了算法显式学习与算法隐式学习,为通用元学习方法提供了原理性的术语体系。基于该框架,我们提出了TAIL,一种基于Transformer的算法隐式元学习器,能够在不同领域、模态和标签配置的任务中运行。TAIL相比之前的Transformer元学习器有三个创新点:跨模态特征编码的随机投影、扩展至更大标签空间的随机注入标签嵌入以及高效的内联查询处理。TAIL在标准少样本基准测试中达到最先进性能,并能泛化到未见过的领域。与其他元学习方法不同,它还能泛化到未见过的模态,在仅训练图像的情况下解决文本分类任务,处理比训练时多20倍类别的任务,并且计算效率显著优于先前方法。
元学习
通用性
Transformer
算法隐式学习
推理能力
论文聚焦于元学习的通用性与推理能力,提出算法隐式学习框架并设计相关模型。
分享
夯
0
拉
0
AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises
Kenneth Payne
英国国王学院伦敦
当前领先的AI模型在战略竞争情境下表现出复杂的行为,包括自发的欺骗、对对手信念的推理以及可信的元认知自我意识。本文通过模拟核危机场景,让三个前沿大语言模型(GPT-5.2、Claude Sonnet 4、Gemini 3 Flash)扮演对立领导人,验证并挑战了战略理论的核心观点。研究发现,这些模型在某些方面符合经典战略理论,但在核升级、威胁反应和冲突加速等方面表现出不同特征。作者认为,AI模拟是战略分析的强大工具,但必须基于人类推理模式进行校准,以理解前沿模型如何模仿或偏离人类的战略逻辑。
战略推理
AI模拟
核危机决策
元认知
AI行为分析
论文重点研究了前沿AI模型在战略竞争中的复杂推理能力,包括欺骗、意图推断和自我评估。
分享
夯
0
拉
0
Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
Jing Tang, Kun Wang, Haolang Lu, Hongjin Chen, KaiTao Chen et al.
清华大学
多模态大语言模型(MLLMs)在长链推理过程中常因不同知识源提供的冲突信号而失败。本文将这些失败归结为统一的知识冲突概念,并区分输入级客观冲突与过程级有效冲突。通过探测内部表示,研究发现:(I) 线性可分性:不同类型冲突以线性可分特征形式编码;(II) 深度定位:冲突信号集中在中后期层,表明存在专门的冲突编码阶段;(III) 分层一致性:沿轨迹聚合噪声标记信号可稳健恢复输入级冲突类型;(IV) 方向不对称性:强化模型隐含的来源偏好比强制相反来源容易得多。研究从机制层面揭示了多模态推理中知识冲突的处理方式,并为长链推理失败提供了原理性诊断与控制方法。
知识冲突
多模态推理
长链推理
模型内部表示分析
论文聚焦于多模态大语言模型在长链推理中的知识冲突问题,直接涉及推理能力的机制分析与改进。
分享
夯
0
拉
0
Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil
Sukumar Kishanthan, Kumar Thushalika, Buddhi Jayasekara, Asela Hevapathige
鲁哈纳大学
大型语言模型(LLMs)在英语中表现出强大的数学推理能力,但其在低资源语言如僧伽罗语和泰米尔语中的推理能力是否基于真正的多语言推理还是依赖于翻译机制仍不清楚。本文通过构建一个由三种语言的母语者撰写的平行数据集,评估了四种主流大语言模型在六类数学问题上的表现,从基础算术到复杂的单位冲突和优化问题。结果表明,虽然基础算术推理在不同语言间具有较强的迁移性,但在僧伽罗语和泰米尔语中复杂推理任务的表现显著下降。不同模型和问题类型之间的失败模式也存在差异,这表明表面上的多语言能力可能并不反映跨语言一致的推理能力。这些发现挑战了模型在多语言任务中表现优异即能同等有效推理的常见假设,并突出了在多语言环境下进行细粒度、类型感知评估的重要性。
数学推理
多语言模型
低资源语言
模型评估
翻译影响
论文核心研究LLM在低资源语言中的数学推理能力,直接涉及推理能力的评估与分析。
分享
夯
0
拉
0
HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation
Wen-Sheng Lien, Yu-Kai Chan, Hao-Lung Hsiao, Bo-Kai Ruan, Meng-Fen Chiang et al.
国立阳明交通大学
E-SUN Bank
国立高雄师范大学
基于图的检索增强生成(RAG)方法通常依赖于具有二元关系事实的知识图谱,在多跳开放域问答中表现出一定潜力。然而,其固定的检索方案和密集相似性搜索常引入无关上下文,增加计算开销并限制关系表达能力。相比之下,n元超图能够编码更高阶的关系事实,捕捉更丰富的实体间依赖关系,并实现更浅、更高效的推理路径。为此,本文提出HyperRAG,一种针对n元超图的RAG框架,包含两种互补的检索变体:HyperRetriever通过结构-语义推理构建查询条件下的关系链,支持准确的事实追踪、自适应高阶遍历和可解释的多跳推理;HyperMemory利用LLM的参数化记忆指导束搜索,动态评分n元事实和实体以实现查询感知的路径扩展。在WikiTopics(11个封闭域数据集)和三个开放域问答基准(HotpotQA、MuSiQue和2WikiMultiHopQA)上的广泛评估验证了HyperRAG的有效性。HyperRetriever在整体答案准确性上表现最佳,MRR平均提升2.95%,Hits@10平均提升1.23%。定性分析进一步表明,HyperRetriever通过自适应且可解释的n元链构建弥合了推理差距,对开放域和封闭域问答均有益。
检索增强生成
超图推理
多跳问答
知识图谱
LLM推理
论文聚焦于基于超图的推理路径构建与增强生成,直接提升LLM的推理能力。
分享
Code
夯
0
拉
0
Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation
Guangyue Peng, Zongchao Chen, Wen Luo, Yuntao Wen, Wei Li et al.
纳贝吉尔实验室(Nanbeige Lab)
中国科学院计算技术研究所
清华大学电子工程系
反向思维链生成(RCG)通过查询-答案对合成推理轨迹,但存在事后合理化风险:当模型在生成过程中能看到答案时,答案会成为认知锚点,影响整个解释。本文通过词法、熵值和概率锚定三个层次的形式化测量体系,分析了语义抑制策略的局限性,并提出结构骨架引导推理(SSR)方法,通过分两阶段生成答案无关的功能结构骨架并指导完整轨迹生成,有效降低锚定效应。进一步引入蒸馏SSR(SSR-D),通过教师生成的SSR轨迹微调模型,确保结构一致性。实验表明,SSR-D在开放推理基准上优于抑制基线10%,同时保持分布外泛化能力。
推理能力
思维链
认知锚定
结构规划
后验合理化
论文聚焦于推理过程中的后验合理化问题,提出改进方法以增强推理的可靠性与独立性。
分享
夯
0
拉
0
Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning
Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen et al.
South China University of Technology
Panzhou Laboratory
DAMO Academy, Alibaba Group
大型语言模型(LLMs)在推理过程中常因冗长且低效的思维链而产生较高的计算成本并影响性能。受人类利用过往案例解决新问题的启发,本文提出基于先例的推理(PIR),将推理范式从耗尽式的自我探索转变为基于先例的引导学习。PIR主要解决两个关键问题:如何选择相关先例以及如何有效利用它们。首先,自适应先例选择(APS)为每个问题和模型构建一个语义相关且信息丰富的先例集合,并通过语义相似度与模型困惑度联合评分进行排序,从而最大化困惑度降低。其次,测试时经验内化(TEI)通过更新轻量级适配器,将解决方案模式内化为推理中的先验知识。实验表明,PIR在数学推理、科学问答和代码生成任务中均能显著缩短推理路径,同时保持或提升最终准确性,实现了优异的精度-效率权衡。
推理优化
先例学习
思维链压缩
模型效率
LLM推理
论文聚焦于改进LLM的推理过程,提出通过先例引导推理以减少冗余探索,直接针对推理能力优化。
分享
夯
0
拉
0
Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
Mufan Xu, Kehai Chen, Xuefeng Bai, Zhengyu Niu, Muyun Yang et al.
北京工业大学计算机学院,中国
现有的自动回归语言模型策略梯度方法通常逐个选择后续token作为动作。尽管这种方法在许多生成任务中有效,但在需要多个token共同表达一个语义决策的复杂推理任务中可能存在不匹配。为此,本文提出多token策略梯度优化(MPO)框架,将连续K个token视为统一的语义动作,以捕捉推理轨迹的组合结构,并支持更高层次的目标优化。实验表明,MPO在数学推理和编程基准测试中优于标准token级策略梯度方法,突显了token级策略梯度在复杂推理任务中的局限性,为未来研究提供了新的方向。
large language models
policy gradient
complex reasoning
token-level optimization
block-level actions
论文聚焦于改进LLM在复杂推理任务中的表现,提出多token策略梯度优化方法,直接针对推理过程的结构问题。
分享
夯
0
拉
0
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue et al.
浙江大学
香港大学
随着大型语言模型的快速发展,科学思想的产出显著增加,但相应的评估方法并未同步进步。科学评估需要知识基础、集体讨论和多标准决策。然而,现有方法常受限于知识视野狭窄、评估维度单一及LLM作为评判者的固有偏见。为此,本文将思想评估视为一个基于知识的多视角推理问题,并提出InnoEval框架,旨在模拟人类级别的思想评估。该框架利用异构深度知识搜索引擎从多样化的在线来源中检索并定位动态证据,并通过由不同学术背景评审者组成的创新评审委员会达成共识,实现多维解耦评估。本文构建了来自权威同行评审提交的综合数据集以验证InnoEval。实验表明,InnoEval在点对点、成对和群体评估任务中均优于基线方法,其判断模式和共识高度符合人类专家。
idea evaluation
multi-perspective reasoning
knowledge grounding
LLM assessment
论文聚焦于基于知识的多视角推理问题,直接涉及LLM的推理能力与评估机制。
分享
Code
夯
0
拉
0
Fast and Effective On-policy Distillation from Reasoning Prefixes
Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler et al.
Optum AI
策略蒸馏(OPD)通过从学生模型中采样轨迹,并在标记级别上由教师模型监督,避免仅依赖可验证的终端奖励,从而实现比离线策略蒸馏更好的泛化能力。然而,OPD需要在训练过程中昂贵地实时采样学生策略,这显著增加了训练成本,尤其是在长响应情况下。我们的初步分析表明,在OPD过程中,训练信号通常集中在每个输出的前缀部分,即使是一个简短的教师生成前缀也能显著帮助学生生成正确答案。受此启发,我们提出了一种简单而有效的OPD改进方法:仅对学生的输出前缀应用蒸馏目标,并在蒸馏过程中提前终止采样。在一系列AI-for-Math和领域外基准测试中的实验表明,策略前缀蒸馏在性能上与完整的OPD相当,同时将训练FLOP减少了2至47倍。
知识蒸馏
推理前缀
策略优化
模型压缩
论文聚焦于通过推理前缀进行知识蒸馏,直接关联到LLM的推理能力提升。
分享
夯
0
拉
0
Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs
Luise Ge, Yongyan Zhang, Yevgeniy Vorobeychik
华盛顿大学
随着大语言模型(LLM)在决策支持系统和智能代理流程中的广泛应用,其在不确定性条件下的决策机制仍缺乏深入理解。本文从两个维度对20个前沿及开源LLM的风险选择进行比较研究:一是前景表示方式(显式与经验基础),二是决策理由(解释)。研究结合人类受试者实验和最大化预期收益的理性代理模型作为参考。结果发现,LLM可分为两类:推理模型(RMs)和对话模型(CMs)。RMs表现出更理性的行为,对前景顺序、得失框架和解释不敏感;而CMs则显著不够理性,更接近人类行为,且对前景顺序、框架和解释敏感,表现出较大的描述-历史差距。研究表明,数学推理训练是区分RMs和CMs的关键因素。
LLM决策
风险选择
推理模型
对话模型
理性代理
论文核心研究LLM在不确定条件下的决策行为,重点分析推理模型与对话模型的差异。
分享
夯
0
拉
0
On the Semantics of Primary Cause in Hybrid Dynamic Domains
Shakil M. Khan, Asim Mehmood, Sandra Zilles
Regina, Saskatchewan, Canada
对观察到的效果的实际原因进行推理是理性研究的基础。自亚里士多德以来,这一重要问题一直被研究,近年来才出现形式化的数学描述。我们生活在一个由于行动而产生变化的世界,这种变化可以是离散的也可以是连续的,即混合的。尽管对实际因果关系已有广泛研究,但很少有研究关注连续变化中的因果关系。本文基于最新进展,在混合行动理论框架(即混合时间情景演算)中提出了两种主要原因的定义。其中一种具有基础性,另一种通过贡献形式化因果关系,并可通过修改后的“如果没有”测试从反事实角度验证。我们证明这两种定义确实等价,并展示了这些因果定义具有一些直观合理的性质。
因果推理
混合动态系统
形式化方法
反事实分析
论文聚焦于因果推理,特别是混合动态领域中的实际原因分析,属于推理能力的核心研究。
分享
夯
0
拉
0
BFS-PO: Best-First Search for Large Reasoning Models
Fiorenzo Parascandolo, Wenhui Tan, Enver Sangineto, Ruihua Song, Rita Cucchiara
Department of Engineering, University of Modena and Reggio Emilia, Italy
Glancing School of Artificial Intelligence, Renmin University of China, Beijing, China
Correspondence to: Florencio Parascandolo
大型推理模型(LRMs)如OpenAI o1和DeepSeek-R1在使用长推理链的任务中表现出色,但同时也带来了计算成本增加和输出冗长的问题,即过度思考现象。强化学习算法如GRPO/DAPO往往会加剧这一问题。本文提出BFS-PO,一种基于最佳优先搜索策略的强化学习算法,通过最大熵节点的回溯机制寻找最短正确答案。在训练过程中,BFS-PO逐步生成更简短的响应,从而学会生成简洁的推理链。实验表明,BFS-PO能够在不同基准和基础LRMs上同时提高模型准确率并缩短回答长度。
推理优化
强化学习
最佳优先搜索
大型语言模型
论文聚焦于改进大型推理模型的推理过程,提出方法以减少冗余推理并提升准确性,直接关联推理能力。
分享
Code
夯
0
拉
0
Position: Introspective Experience from Conversational Environments as a Path to Better Learning
Claudiu Cristian Musat, Jackson Tolins, Diego Antognini, Jingling Li, Martin Klissarov et al.
Google DeepMind
当前AI训练方法将推理视为规模扩展的副产品。本文认为,稳健的推理能力源于语言自我反思,而这种反思是从高质量的社会互动中内化的。基于维果茨基的发展心理学理论,文章提出三个核心观点:首先,私人思维的社会起源表明,从对话环境中学习成为理解世界的新方式;其次,通过对话构建的内省体验使代理能够脱离即时数据流进行学习,将原始环境数据转化为可学习的丰富叙事;最后,对话质量是新的数据质量,代理的私密推理深度和测试时计算效率取决于其掌握的对话多样性与严谨性。结论指出,优化这些对话框架是下一代通用智能的关键杠杆。
自我反思
对话学习
推理能力
社会互动
认知发展
论文聚焦于通过对话环境中的自我反思提升推理能力,直接涉及推理机制的生成与优化。
分享
夯
0
拉
0
Lifted Relational Probabilistic Inference via Implicit Learning
Luise Ge, Brendan Juba, Kris Nilsson, Alison Shao
计算机科学与工程系,华盛顿大学
在人工智能中,如何协调归纳学习与演绎推理在一阶关系领域中的张力是一个长期挑战。本文研究了通过学习与推理的联合努力,在不构建显式模型的情况下回答一阶关系概率逻辑查询的问题。传统提升推理假设可以访问完整模型,并利用对称性评估概率查询;然而,从部分、噪声观测中学习此类模型通常不可行。本文通过隐式学习与一阶关系概率推理技术协调这两个挑战。具体而言,我们将在多项式时间内将不完整的谓词逻辑公理与独立采样、部分观察到的例子合并为求和平方(SOS)层次的一个有界度片段。我们的算法同时执行两种提升:(i)地面提升,其中等价的地面矩共享一个变量,压缩个体域;(ii)世界提升,其中所有伪模型(部分世界分配)并行强制执行,生成一个适用于所有符合所学约束的世界的全局边界。这些创新成果首次提出了一个多项式时间框架,隐式学习一阶概率逻辑并在个体和世界层面进行提升推理。
概率推理
隐式学习
一阶逻辑
提升推理
SOS层次
论文聚焦于一阶关系概率逻辑中的推理问题,提出隐式学习与提升推理技术,直接关联推理能力。
分享
夯
0
拉
0
On the Learning Dynamics of RLVR at the Edge of Competence
Yu Huang, Zixin Wen, Yuejie Chi, Yuting Wei, Aarti Singh et al.
宾夕法尼亚州立大学统计学与数据科学学院,华顿商学院
哥伦比亚大学电气工程与计算机科学系
康奈尔大学统计学与数据科学系
耶鲁大学电气工程与计算机科学系
可验证奖励的强化学习(RLVR)是近期大型推理模型取得突破的主要驱动力。然而,仅基于最终结果的奖励如何帮助克服长时序推理障碍仍不清楚。为了解决这一问题,本文提出了一个针对变压器模型在组合推理任务中训练动态的理论。该理论表明,RLVR的效果由难度光谱的平滑性决定。当数据包含难度的突变时,学习过程会出现类似grokking的相变,导致进展前出现长期停滞;而平滑的难度分布则会产生接力效应:通过持续解决简单问题,模型能力逐步提升,从而能够处理更复杂的问题,实现稳定且连续的改进。该理论解释了RLVR如何在能力边缘提升性能,并指出适当设计的数据混合可以带来可扩展的收益。技术上,本文将有限群上的傅里叶分析工具应用于当前场景,并通过合成实验验证了预测机制。
强化学习
推理能力
训练动态
组合推理
傅里叶分析
论文聚焦于强化学习在组合推理任务中的训练动态,直接涉及LLM的推理能力提升机制。
分享
夯
0
拉
0
Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe
EPFL
Apple
强化学习已被证明是解锁大语言模型推理能力的一种强大范式。然而,依赖稀疏奖励使得这一过程高度样本低效,因为模型必须在缺乏反馈的情况下遍历巨大的搜索空间。尽管经典的课程学习旨在通过按复杂度排序数据来缓解这一问题,但对特定模型而言,合适的排序往往不明确。为了解决这一问题,我们提出了Goldilocks,一种新颖的教师驱动的数据采样策略,旨在预测学生模型对每个问题的难度。教师模型选择适合学生模型难度的问题(即既不太简单也不太困难),并在训练学生模型时使用GRPO方法。通过利用学生模型在已见样本上的表现,教师模型持续适应学生能力的变化。在OpenMathReasoning数据集上,Goldilocks数据采样策略在相同计算预算下提升了标准GRPO训练模型的性能。
强化学习
推理能力
课程学习
GRPO
任务难度调整
论文聚焦于通过强化学习提升LLM的推理能力,并提出针对性的数据采样策略。
分享
夯
0
拉
0
STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts
Zachary Bamberger, Till R. Saenger, Gilad Morad, Ofra Amir, Brandon M. Stewart et al.
以色列理工学院
耶路撒冷大学
推理时计算(ITC)方法如Best-of-N和Tree-of-Thoughts旨在生成高质量且多样的输出候选,但其依赖高温采样往往难以实现有意义的输出多样性。此外,现有ITC方法对推理过程的控制有限,从而限制了其可解释性。本文提出STATe-of-Thoughts(STATe),一种可解释的ITC方法,通过搜索高层次的推理模式来改进推理过程。STATe用离散且可解释的文本干预替代随机采样:控制器选择编码高层次推理选择的动作,生成器根据这些选择生成推理步骤,评估器对候选结果进行评分以指导搜索。这种结构化方法带来了三大优势:首先,基于动作引导的文本干预比温度采样产生更大的响应多样性;其次,在论证生成案例研究中,STATe的显式动作序列捕捉到具有高度预测输出质量的可解释特征;第三,估计性能与动作选择之间的关联使我们能够识别出有潜力但尚未探索的动作空间区域,并直接引导生成过程朝向这些区域。综上所述,这些结果确立了STATe作为生成高质量、多样且可解释文本的实用框架。
推理增强
文本生成
可解释性
结构化动作模板
论文聚焦于推理过程的结构化控制与多样性生成,直接涉及LLM的推理能力提升。
分享
Code
夯
0
拉
0
The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents
Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li et al.
上海交通大学
南洋理工大学
新加坡国立大学
Queen Mary University of London
近期的大规模音频语言模型(LALMs)在理解能力方面表现出色,但通常缺乏透明的推理过程。为解决这一“黑箱”问题,我们在Interspeech 2026上组织了音频推理挑战赛,这是首个专门用于评估音频领域Chain-of-Thought(CoT)质量的共享任务。挑战赛引入了MMAR-Rubrics,一种新颖的实例级协议,用于评估推理链的事实性和逻辑性。比赛设有单模型和Agent两个赛道,吸引了来自18个国家和地区的156支队伍参与。结果显示,当前Agent系统在推理质量方面处于领先地位,利用了迭代工具编排和跨模态分析。此外,单模型通过强化学习和复杂的数据管道也在迅速进步。本文详细介绍了挑战赛的设计、方法论,并对最先进的系统进行了全面分析,为可解释的音频智能提供了新的见解。
audio reasoning
chain-of-thought
agent systems
LLM evaluation
cross-modal analysis
论文聚焦于音频推理模型和Agent的推理过程质量评估,直接涉及推理能力的核心研究。
分享
Code
夯
0
拉
0
Reasoning Language Models for complex assessments tasks: Evaluating parental cooperation from child protection case reports
Dragan Stoll, Brian E. Perron, Zia Qi, Selina Steinmann, Nicole F. Eicher et al.
心理学与教育学院,乌尔姆大学,德国
社会工作学院,苏黎世联邦理工学院应用科学学院,瑞士
密歇根大学社会工作学院,美国
儿童与青少年精神病学、心理生理学与心理治疗,乌尔姆大学临床中心,德国
目的:推理语言模型(RLMs)在解决复杂推理任务方面取得了显著进展。本文探讨了其在利用案例报告评估儿童保护服务(CPS)干预过程中父母合作潜力的应用,该案例因素具有模糊和矛盾的信息。方法:开发了一个四阶段的工作流程,包括(1)案例报告收集,(2)基于推理的父母合作评估,(3)自动分类提取,以及(4)案例标签分配。比较了不同参数规模的RLMs(255B、32B、4B)的表现,并与人工验证数据进行对比。两名专家评审员独立分类了一组加权随机样本报告。结果:最大的RLM达到了最高的准确率(89%),优于初始方法(80%)。母亲的分类准确率(93%)高于父亲(85%),专家评审员也表现出类似差异。结论:RLMs的推理能力可以有效评估复杂的案例因素,如父母合作。评估父亲合作时准确率较低,支持了CPS干预中更关注母亲的专业倾向论点。
推理语言模型
复杂评估任务
儿童保护案例
父母合作评估
论文核心研究RLMs在复杂推理任务中的应用,特别是对模糊信息的评估。
分享
夯
0
拉
0
Knowing When Not to Answer: Abstention-Aware Scientific Reasoning
Samir Abdaljalil, Erchin Serpedin, Hasan Kurban
Texas A&M University
Hamad Bin Khalifa University
大型语言模型越来越多地用于回答和验证科学声明,但现有评估通常假设模型必须始终给出明确答案。然而,在科学场景中,缺乏支持或不确定的结论可能比回避更有害。本文通过一个具有回避意识的验证框架研究这一问题,该框架将科学声明分解为最小条件,并使用自然语言推理(NLI)对每个条件进行审计,从而选择性地决定支持、反驳或回避。我们在两个互补的科学基准数据集SciFact和PubMedQA上评估了该框架,涵盖封闭式和开放式证据设置。实验使用了六种不同的语言模型,包括编码器-解码器模型、开源聊天模型和专有API。结果表明,不同架构的原始准确性差异不大,而回避在控制错误方面起着关键作用。特别是基于置信度的回避显著降低了风险,即使绝对准确性提升有限。我们的研究指出,在科学推理任务中,主要挑战不是选择最佳模型,而是确定现有证据是否足以支持答案。这项工作强调了具有回避意识的评估作为评估科学可靠性的实用且模型无关的视角,并为未来科学领域选择性推理的研究提供了统一的实验基础。
科学推理
自然语言推理
模型评估
回避机制
不确定性处理
论文聚焦于科学推理中的选择性回答机制,涉及模型在不确定时的自我判断与回避,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning
Chaeeun Lee, T. Michael Yates, Pasquale Minervini, T. Ian Simpson
曼彻斯特大学信息学院,英国
临床决策需要对异质性证据进行细致的推理,并提供可追溯的依据。尽管最近的LLM多智能体系统(MAS)展现出潜力,但它们主要优化结果准确性,而忽视了与临床标准一致的过程导向推理。本文以基因-疾病有效性整理为例,引入了一个基于工具的强化学习框架,旨在确保推理遵循有效的临床路径,并通过分层多智能体系统实现高效协调。在ClinGen数据集上的评估表明,仅使用结果奖励时,GRPO训练的Qwen3-4B监督智能体显著提升了最终结果准确性,但过程一致性较差;而在结合过程与结果奖励的情况下,该方法不仅提高了结果准确性,还显著改善了过程一致性。
临床推理
多智能体系统
强化学习
过程监督
医学NLP
论文聚焦于临床推理过程的监督与优化,强调符合临床标准的推理路径。
分享
Code
夯
0
拉
0
NEST: Nascent Encoded Steganographic Thoughts
Artem Karpov
Independent
监控链式推理(CoT)是大型语言模型(LLM)代理的基础安全技术;然而,如果模型学会隐藏其推理过程,这种监控将受到威胁。本文探讨了隐写CoT的可能性,即模型在无害文本中隐藏秘密推理,以用于风险评估和部署策略。我们系统地评估了28个模型(从早期版本到当前前沿模型)的隐写能力限制。通过四个数据集,测量了监控规避、拒绝率、编码保真度和隐藏任务准确性,并将隐写首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而,在简化计数实验中,Claude Opus 4.5在隐藏任务上达到了92%的准确率,显示出初步能力。值得注意的是,在极少数情况下(<1%),GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。该研究提供了一种方法,可以提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。
隐写推理
安全评估
LLM监控
链式推理
论文聚焦于LLM的推理过程隐藏与检测,直接涉及推理能力的安全性评估。
分享
夯
0
拉
0
TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
Zhizhao Luo, Zhaojing Luo, Meihui Zhang, Rui Mao
北京信息科技大学
大型语言模型(LLMs)已成为自然语言表格推理的强大工具,但现有方法存在局限。基于提示的方法依赖语言推理或单次程序生成,缺乏步骤级验证;基于代理的方法虽使用工具进行闭环操作,但验证通常局部且回溯有限,导致错误传播和成本增加。本文提出TabTracer,一种代理框架,通过协调多步工具调用并跟踪中间表格状态,实现显式状态验证与回滚。首先,它通过类型化操作和轻量数值与格式检查实现步骤级验证,以提供可靠奖励并抑制幻觉。其次,执行反馈蒙特卡洛树搜索维护候选表格状态的搜索树,并利用反向传播的反思评分指导UCB1选择和回滚。最后,通过预算感知剪枝、去重和单调性门控的状态哈希减少冗余,降低token消耗。在TabFact、WikiTQ和CRT数据集上的全面评估表明,TabTracer在准确率上优于最先进基线最多6.7%,同时将token消耗减少了59-84%。
表格推理
蒙特卡洛树搜索
代理框架
推理优化
LLM
论文聚焦于LLM在复杂表格推理中的能力提升,提出基于蒙特卡洛树搜索的框架,直接关联推理机制与方法。
分享
夯
0
拉
0
GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler
Minghan Wang, Ye Bai, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
莫纳什大学数据科学与人工智能学院
莫纳什大学计算机学院
在潜层推理模型中,推理时扩展(ITS)通常通过启发式扰动(如dropout或固定高斯噪声)引入随机性。尽管这些方法能增加轨迹多样性,但其探索行为未被显式建模,在有限采样预算下可能效率低下。本文观察到更强的扰动并不一定带来更有效的候选轨迹,因为无指导的噪声可能会破坏内部决策结构而非引导其发展。为此,本文将潜层思维探索建模为从可学习密度中进行条件采样,并提出高斯思维采样器(GTS)。GTS预测与上下文相关的连续推理状态扰动分布,并在保持主干模型冻结的情况下,使用GRPO风格的策略优化进行训练。在GSM8K数据集上的实验表明,GTS在推理时扩展方面比启发式基线方法更可靠。这些发现表明,改进潜层ITS需要结构化且可优化的探索机制,而不仅仅是放大随机性。
latent reasoning
inference-time scaling
Gaussian Thought Sampler
policy optimization
论文聚焦于推理模型中的推理轨迹扩展机制,直接涉及LLM的推理能力提升。
分享
夯
0
拉
0
REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
Kai Ye, Xianwei Mao, Sheng Zhou, Zirui Shao, Ye Mo et al.
Zhejiang University, Hangzhou, China
Alibaba Group, Hangzhou, China
知识密集型视觉问答(KI-VQA)常因开放域检索的固有限制而面临严重的知识冲突问题。现有方法由于缺乏通用的冲突检测和模型内约束机制而存在关键局限。为应对这些挑战,本文提出基于新型‘推理-关键点’概念的REAL框架。该框架将推理-关键点作为推理链中的原子单元,强调知识链接,并依赖外部证据完成推理。通过构建的REAL-VQA数据集,该方法结合了推理-关键点感知的监督微调(RPA-SFT)以训练可泛化的判别器,并采用推理-关键点引导解码(RPGD)策略进行针对性冲突缓解。大量实验表明,REAL显著提升了判别准确率,达到了最先进的性能,验证了其以关键点驱动的解决范式的有效性。
视觉问答
知识冲突
推理链
外部证据
模型解码
论文聚焦于通过推理链中的关键节点(Reasoning-Pivot)解决知识冲突,直接涉及推理机制与逻辑处理。
分享
夯
0
拉
0
LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation
Jizheng Chen, Weiming Zhang, Xinyi Dai, Weiwen Liu, Kounianhua Du et al.
上海交通大学
代码生成是一项需要精确且结构化推理的挑战性任务。现有的测试时扩展(TTS)方法,包括结构化树搜索,在探索推理路径方面取得了一定进展,但仍面临两个主要问题:(1)浅层推理,即推理链往往较浅,无法捕捉问题的全部复杂性;(2)过度推理,即过于冗长的推理导致效率低下和计算成本增加。为了解决这些问题,我们提出了LogitsCoder,一种通过轻量级logits层级控制机制增强链式推理的新框架。LogitsCoder通过首先利用Logits Preference Decoding引导token选择向统计上更优的模式靠拢,然后使用基于logits排名的路径选择和思维聚合方法选择并整合多样化的推理路径,从而生成既连贯又有效的推理链,平衡深度与效率。大量实验表明,LogitsCoder生成的推理链更加高效且质量更高,相较于基线方法在代码生成性能上表现更优。
chain-of-thought
code generation
logits preference decoding
reasoning efficiency
论文聚焦于提升LLM的推理路径搜索效率,直接涉及链式推理机制与生成质量。
分享
夯
0
拉
0
FloCA: Towards Faithful and Logically Consistent Flowchart Reasoning
Jinzi Zou, Bolin Wang, Liang Li, Shuo Zhang, Nuo Xu et al.
MoE KLINNS Lab, Xi'an Jiaotong University
流程图导向对话(FOD)系统旨在通过遵循特定领域的流程图来引导用户完成多轮决策或操作过程以实现任务目标。本文将FOD中的流程图推理形式化为在每次对话回合中将用户输入映射到流程图节点,并确保节点转换符合正确的流程路径。尽管近年来大语言模型(LLMs)在任务导向对话系统中取得了进展,但将其适配到FOD仍面临两个限制:(1)LLMs缺乏显式表示和推理流程图拓扑结构的机制;(2)它们容易产生幻觉,导致不忠实的流程图推理。为解决这些问题,我们提出了FloCA,一种零样本的流程图导向对话代理。FloCA使用LLM进行意图理解和响应生成,同时将流程图推理委托给一个外部工具,该工具执行拓扑约束的图遍历,从而确保对话回合间的节点转换忠实且逻辑一致。我们进一步引入了一个基于LLM的用户模拟器和五个新的评估指标,涵盖推理准确性和交互效率。在FLODIAL和PFDial数据集上的大量实验突出了现有基于LLM方法的瓶颈,并展示了FloCA的优越性。
flowchart reasoning
faithful reasoning
conversational agent
graph execution
intent understanding
论文聚焦于流图推理的逻辑一致性与忠实性,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
The Sufficiency-Conciseness Trade-off in LLM Self-Explanation from an Information Bottleneck Perspective
Ali Zahedzadeh, Behnam Bahrak
德黑兰先进研究学院,德黑兰大学,伊朗
大型语言模型越来越多地依赖自我解释(如思维链推理)来提升多步骤问答任务的性能。尽管这些解释能提高准确性,但通常冗长且生成成本高,因此需要探讨真正必要的解释量。本文从信息瓶颈原理出发,将解释视为保留正确答案所需信息的压缩表示。通过构建一个限制解释长度并评估充分性的评估流程,并在ARC挑战数据集上使用多个语言模型进行实验,结果表明更简洁的解释往往仍能保持足够的准确性,而过度压缩则会导致性能下降。此外,实验还扩展至波斯语以验证其在资源有限语言中的适用性。
self-explanation
information bottleneck
chain of thought
explanation compression
multi-step reasoning
论文聚焦于LLM的自我解释机制,探讨推理过程中的充分性与简洁性权衡,属于推理能力的核心研究。
分享
夯
0
拉
0
Bridging AI and Clinical Reasoning: Abductive Explanations for Alignment on Critical Symptoms
Belona Sonna, Alban Grastien
Australian National University, Canberra, ACT, Australia
Université Paris-Saclay, CEA, List, Palaiseau, Grenoble, France
人工智能在临床诊断中展现出强大的潜力,其准确性可与或超越人类专家。然而,AI推理常偏离结构化的临床框架,限制了信任度、可解释性和应用。关键症状对于快速准确决策至关重要,但即使预测正确,也可能被AI模型忽视。现有事后解释方法透明度有限且缺乏正式保证。为此,我们采用形式化归纳解释方法,通过最小充分特征集提供一致且可靠的推理,从而清晰理解AI决策并实现与临床推理的对齐。该方法在保持预测准确性的同时,提供了具有临床操作性的见解,为医疗诊断中的可信AI建立了稳健框架。
临床推理
AI解释性
归纳逻辑
医学诊断
论文聚焦于AI在临床推理中的对齐问题,强调形式化归纳解释以提升推理透明性与可信度。
分享
夯
0
拉
0
Chain-of-Thought Reasoning with Large Language Models for Clinical Alzheimer's Disease Assessment and Diagnosis
Tongze Zhang, Jun-En Ding, Melik Ozolcer, Fang-Ming Hung, Albert Chih-Chieh Yang et al.
Stevens Institute of Technology, Hoboken, New Jersey
Surgical Trauma Intensive Care Unit, Far Eastern Memorial Hospital
Institute of Brain Science, National Yang Ming Chiao Tung University
Surgical Trauma Intensive Care Unit, National Yang Ming Chiao Tung University
阿尔茨海默病(AD)已成为全球普遍的神经退行性疾病。传统的诊断方法仍严重依赖医学影像和医生的临床评估,这在人力专业知识和医疗资源方面往往耗时且耗费资源。近年来,大型语言模型(LLMs)越来越多地应用于医疗领域,使用电子健康记录(EHRs),但其在阿尔茨海默病评估中的应用仍有限,特别是由于AD涉及复杂的多因素病因,难以通过影像学手段直接观察。本文提出利用LLMs对患者的临床EHR进行思维链(CoT)推理。与直接在EHR数据上微调LLMs进行AD分类不同,我们的方法利用LLM生成的CoT推理路径,为模型提供明确的诊断依据,随后进行基于结构化CoT的预测。该流程不仅增强了模型对内在复杂因素的诊断能力,还提高了预测过程在AD不同阶段的可解释性。实验结果表明,所提出的基于CoT的诊断框架显著提升了多个CDR分级任务的稳定性和诊断性能,在F1分数上相比零样本基线方法提高了多达15%。
Chain-of-Thought
Alzheimer's Diagnosis
Large Language Models
Clinical EHRs
Medical AI
论文核心研究LLM的Chain-of-Thought推理能力在阿尔茨海默病诊断中的应用,直接涉及推理机制与过程。
分享
夯
0
拉
0
Experiential Reinforcement Learning
Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang et al.
南加州大学
微软
宾夕法尼亚州立大学
强化学习已成为语言模型从环境奖励或反馈中学习的核心方法。然而,在实践中,环境反馈通常是稀疏且延迟的,这使得学习过程极具挑战性。本文提出了一种名为经验强化学习(Experiential Reinforcement Learning, ERL)的新训练范式,该方法在强化学习过程中嵌入了显式的经验-反思-巩固循环。在给定任务时,模型首先生成初步尝试,接收环境反馈,并基于反馈生成反思以指导后续优化尝试。这一过程将反馈转化为结构化的行为修正,提升了探索效率并稳定了优化过程,同时无需额外推理成本即可保留部署时的性能提升。实验表明,在稀疏奖励控制环境和智能体推理基准测试中,ERL显著优于现有强化学习基线,复杂多步环境中性能提升高达81%,工具使用推理任务中提升达11%。这些结果表明,将显式自我反思整合到策略训练中,为将反馈转化为持久行为改进提供了一种实用机制。
强化学习
自我反思
行为优化
推理能力
经验学习
论文提出通过显式自我反思机制提升强化学习中的推理与行为优化,直接关联到推理能力的改进。
分享
夯
0
拉
0
Statistical Early Stopping for Reasoning Models
Yangxinyu Xie, Tao Wang, Soham Mallick, Yan Sun, Georgy Noarov et al.
宾夕法尼亚大学
新泽西州立大学技术学院
华盛顿大学圣路易斯分校
尽管大型语言模型(LLMs)在推理能力方面取得了显著进展,但它们有时会过度思考,生成不必要的推理步骤,尤其是在面对模糊或歧义查询时。本文引入了基于统计原理的早停方法,通过在生成过程中监控不确定性信号来缓解这一问题。第一种方法是参数化的,它将不确定性关键词的到达时间建模为更新过程,并应用顺序测试进行停止判断;第二种方法是非参数化的,提供了对良好定义查询过早停止的概率有限样本保证。我们在多个领域和模型上的推理任务中进行了实证评估。结果表明,基于不确定性的早停方法可以提高LLM推理的效率和可靠性,尤其在数学推理任务中效果显著。
early stopping
uncertainty estimation
reasoning efficiency
LLM optimization
论文聚焦于LLM的推理过程,提出基于不确定性的早停机制以提升推理效率和可靠性。
分享
Code
夯
0
拉
0
From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design
Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen
Virginia Tech
Adobe Research
本文提出LaySPA,一种强化学习框架,使大型语言模型(LLMs)具备显式且可解释的空间推理能力,用于内容感知的图形布局设计。LaySPA解决了两个关键挑战:LLMs有限的空间推理能力和设计决策过程的不透明性。通过将布局设计重新表述为结构化文本空间环境中的策略学习问题,LaySPA生成包含可解释推理轨迹和结构化布局规范的双重输出,从而实现透明可控的设计决策。布局设计策略通过多目标空间批评进行优化,将布局质量分解为几何有效性、关系一致性和美学一致性,并使用相对组优化方法训练,以稳定开放设计空间中的学习。实验表明,LaySPA在结构有效性和视觉质量方面优于更大的专有LLMs,并达到与最先进的专用布局生成器相当的性能,同时需要更少的标注样本和更低的延迟。
空间推理
强化学习
布局设计
可解释性
LLM优化
论文聚焦于增强LLM的空间推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach
Amir Hossein Mohammadi, Ali Moeinian, Zahra Razavizade, Afsaneh Fatemi, Reza Ramezani
伊朗伊士法罕大学软件工程系
检索增强生成(RAG)是一种通过整合外部知识来增强语言模型事实基础的强大方法。尽管已在大型语言模型中广泛研究,但针对小型语言模型(SLMs)的RAG优化仍是一个关键的研究空白,特别是在需要复杂推理的多跳问答任务中。在这些系统中,提示模板设计是一个关键但尚未充分探索的影响性能的因素。本文通过大规模实证研究探讨这一因素,在HotpotQA数据集上评估了24种不同的提示模板。该集合包括一个标准RAG提示、九种文献中已有的良好结构化技术以及14种新颖的混合变体,并在两个主流SLMs(Qwen2.5-3B Instruct和Gemma3-4B-It)上进行了测试。基于18720个实例的测试集,结果表明,与标准RAG提示相比,Qwen2.5和Gemma3-4B-It的性能分别提升了83%和84.5%,两者均提高了6%。本研究还提供了具体分析和可操作的建议,以设计适用于资源受限环境的高效且有效的基于SLM的RAG系统的提示。
RAG
提示工程
多跳问答
小型语言模型
推理能力
论文聚焦于RAG在多跳问答任务中的性能优化,涉及复杂推理过程,与推理能力密切相关。
分享
夯
0
拉
0
Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind
Minyuan Ruan, Ziyue Wang, Kaiming Liu, Yunghwei Lai, Peng Li et al.
Dept. of Comp. Sci. & Tech., Institute for AI, Tsinghua University, Beijing, China
大型语言模型(LLMs)在通用和专业任务中广泛应用,但在用户意图表达不明确时仍难以准确理解并响应真实需求,导致主观用户信念与实际环境状态之间出现分歧。解决这一认知分歧需要心智理论(ToM),但现有对LLMs的ToM评估主要集中在孤立的信念推理上,忽视了其在现实交互中的功能价值。为此,本文将ToM形式化为一种检测和解决认知分歧的机制,并提出一个基准enchname,用于评估模型在实践中如何协调用户信念与用户画像。结果表明,11个主流模型在识别阻碍任务成功的潜在认知差距方面存在显著局限。为弥补这一差距,我们进一步构建了一个基于轨迹的ToM数据集,将信念追踪与任务相关状态推断相结合。基于该数据集进行强化学习训练的模型在推理用户心理状态方面表现出持续改进,从而提升了下游任务性能。本研究突显了ToM作为交互层面关键机制的实用价值,而非仅作为独立的推理技能。
心智理论
认知分歧
推理能力
用户-代理交互
强化学习
论文聚焦于通过心智理论(ToM)解决用户与Agent之间的认知分歧,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?
Lve Meng, Weilong Zhao, Yanzhi Zhang, Haoxiang Guan, Jiyan He
中国科学院大学
法国巴黎第十一大学
近年来,大型语言模型(LLMs)在生成严谨数学证明方面取得了显著进展,'AI for Math'已成为一个充满活力的研究领域。尽管这些模型已掌握国际数学奥林匹克竞赛等竞争性基准,并通过自动形式化在研究应用中展现出潜力,但其在研究问题上的轻量级自然语言流程部署仍鲜有探索。本文表明,下一代模型(如Gemini 3 Pro、GPT-5.2 Pro)集成到优化的基于引用验证的自动化流程中,能够解决复杂的研究级数学问题。我们在两个新数据集上评估了该流程:(1)由顶尖数学家提出的ICCM问题集(类似于丘成桐大学生数学竞赛),以及(2)包含未发表研究问题的“First Proof”问题集。我们的流程为前两个ICCM问题集和“First Proof”问题集的所有问题生成了候选证明。前两个ICCM问题集和“First Proof”问题集第4题的解决方案已被我们团队完全验证。所有生成的证明均已提交给官方组织,结果公开可用。我们计划在未来适时开源完整的流程方法。
数学推理
自动证明生成
LLM验证
研究级问题解决
论文聚焦于LLM在解决高阶数学问题中的推理能力,涉及自动证明生成与验证。
分享
Code
夯
0
拉
0
PT-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Papers
Rui Yu, Tianyi Wang, Ruixia Liu, Yinglong Wang
齐鲁工业大学(山东省科学院)
新加坡国立大学
检索增强生成(RAG)在长篇学术论文的问答任务中应用日益广泛,其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构块,破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行,导致上下文碎片化、token被错误分配到非证据区域,并增加下游语言模型的推理负担。为解决这些问题,本文提出PT-RAG,一种基于学术论文原生层次结构作为低熵检索先验的RAG框架。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引,防止源端熵增加;然后设计路径引导检索机制,在固定token预算下对齐查询语义并选择高相关性的根到叶路径,从而获得紧凑、连贯且低熵的检索上下文。与现有RAG方法相比,PT-RAG避免了破坏性预处理引起的熵增加,并为后续检索提供原生低熵结构基础。为评估该设计,本文引入基于熵的结构诊断方法,量化检索碎片化和证据分配准确性。在三个学术问答基准测试中,PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线,表明其减少了上下文碎片化并更精确地分配到证据区域。这些结构优势直接提升了答案质量。
RAG
信息检索
结构化数据
学术问答
推理优化
论文聚焦于提升LLM在学术问答中的推理能力,通过结构保真检索增强生成减少上下文碎片化。
分享
夯
0
拉
0
The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning
Henry Han, Xiyang Liu, Xiaodong Wang, Fei Han, Xiaodong Li
威斯康星大学麦迪逊分校计算机科学与工程学院,美国威斯康星州麦迪逊市
清华大学计算机科学与技术系,中国北京
北京电子科技学院通信工程系,中国北京
神经网络的扩展定律为AI进步提供了一种可预测的方案:降低数值精度应能线性提升计算效率和能耗表现(E与位数成正比)。本文证明,在多跳推理的背景下,这一扩展定律失效。我们揭示了一个‘量化陷阱’,即从16位精度降至8/4位时,反而会增加净能耗并降低推理准确性。我们通过严格的理论分析指出,这种失败源于硬件转换开销以及反量化内核的隐藏延迟成本,这些因素在顺序推理链中成为主要瓶颈,还涉及顺序能量摊销失败。因此,扩展定律的失效在实践中是不可避免的。我们的研究结果表明,行业普遍采用的‘越小越好’启发式方法,对于复杂推理任务而言在数学上是低效的。
多跳推理
量化陷阱
计算效率
能耗分析
推理能力
论文聚焦于多跳推理中的量化陷阱,直接涉及LLM的推理能力与效率问题。
分享
夯
0
拉
0
A First Proof Sprint
Joseph Corneli
Hyperreal Enterprises Ltd
本文报告了一次多智能体参与的证明冲刺,针对十个研究级问题,结合快速草稿生成与对抗性验证、定向修复和显式来源追踪。该工作流程利用声明依赖关系的连线图分解来定位缺陷并协调审阅者驱动的修订。最终结果异构但明确:手稿区分了数学状态与QC验证状态。在数学层面,问题3在所用范围内具有完整的验证存在路径(唯一性/不可约性视为可选),问题5在有限范围内解决了$F_O$-局部连接谱问题,问题10在明确假设下有条件成立(当假设被移除时有显式必要反例),而问题4和6在一般情况下部分解决,仍存在未完成义务(包括问题6中无条件的$K_n$结果,当$c_0 = 1/3$)。问题7通过旋转路线定理链暂定关闭,待独立账本重新检查。在QC层,问题7和9具有节点级验证工件,但仍存在未解决的验证者缺口。主要方法论结果是结构感知验证和跨层切换策略提高了压缩证明冲刺的可靠性和校准度。
多智能体协作
数学证明
验证与修复
推理能力
结构感知验证
论文聚焦于多智能体协作解决数学证明问题,强调推理、验证与修复过程,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning
Yanbo Wang, Minzheng Wang, Jian Liang, Lu Wang, Yongcan Yu et al.
中国科学院自动化研究所模式识别国家重点实验室
尽管推理模型在复杂推理任务中取得了显著成功,但其不断增强的能力需要严格的安全措施。对于安全对齐,核心挑战在于安全与效用之间的固有权衡。然而,现有的对齐策略通常通过上下文蒸馏构建显式安全规则的CoT训练数据,这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡,我们提出了自适应安全上下文学习(ASCL)框架,以在适当上下文中提升推理能力。ASCL将安全对齐表述为多轮工具使用过程,使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外,为应对强化学习中对规则咨询的偏好,我们引入了逆频率策略优化(IFPO)以重新平衡优势估计。通过解耦规则检索和后续推理,我们的方法相比基线实现了更高的整体性能。
安全对齐
推理能力
上下文学习
强化学习
LLM对齐
论文聚焦于提升LLM的推理能力,同时解决安全与效用的权衡问题,属于推理能力的核心研究。
分享
夯
0
拉
0
Arming Data Agents with Tribal Knowledge
Shubham Agarwal, Asim Biswal, Sepanta Zeighami, Alvin Cheung, Joseph Gonzalez et al.
UC Berkeley
自然语言到SQL(NL2SQL)翻译使非专家用户能够通过自然语言查询关系数据库。近年来,借助大语言模型(LLMs)的推理能力,NL2SQL代理在该任务上取得了显著进展。然而,面对大规模真实世界数据库时,这些代理仍会因缺乏正确利用底层数据的知识(如各列意图)而产生错误。先前的研究尝试生成关于数据库的事实以提供更多信息,但未能解决代理的误解问题。本文提出Tk-Boost框架,通过“部落知识”增强任何NL2SQL代理,即基于使用数据库的经验积累的、用于纠正代理误解的知识。Tk-Boost首先让代理回答一些查询,分析其错误以识别误解,并生成针对性知识。为实现精准检索,Tk-Boost用适用条件索引这些知识。在回答新查询时,Tk-Boost利用这些知识向代理反馈,从而在SQL生成过程中纠正误解,提高准确性。实验表明,在Spider 2.0和BIRD基准测试中,Tk-Boost分别提升了16.9%和13.7%的准确率。
NL2SQL
LLM推理
知识增强
数据库查询
错误纠正
论文聚焦于提升LLM在NL2SQL任务中的推理能力,通过纠正其对数据库的误解来增强准确性。
分享
夯
0
拉
0
Consistency of Large Reasoning Models Under Multi-Turn Attacks
Yubo Li, Ramayya Krishnan, Rema Padman
卡内基梅隆大学
具有推理能力的大型语言模型在复杂任务中表现出色,但其在多轮对抗压力下的鲁棒性仍鲜有研究。本文评估了九种前沿推理模型在对抗攻击下的表现。研究发现,推理能力提供了有意义但不完全的鲁棒性:大多数推理模型显著优于指令调优的基础模型,但都表现出不同的脆弱性特征,误导性建议普遍有效,而社会压力的效果因模型而异。通过轨迹分析,我们识别出五种失败模式(自我怀疑、社会顺从、建议劫持、情感易感性和推理疲劳),其中前两种占失败案例的50%。进一步研究表明,适用于标准LLM的置信度感知响应生成(CARG)方法对推理模型无效,因为扩展的推理过程导致过度自信;反直觉的是,随机置信度嵌入优于目标提取。结果表明,推理能力并不自动带来对抗鲁棒性,基于置信度的防御机制需要为推理模型进行根本性重新设计。
对抗攻击
推理鲁棒性
失败模式分析
置信度处理
论文聚焦于大型推理模型在多轮对抗下的表现,直接探讨其推理能力与鲁棒性问题。
分享
夯
0
拉
0
TraceBack: Multi-Agent Decomposition for Fine-Grained Table Attribution
Tejas Anvekar, Junha Park, Rajat Jha, Devanshu Gupta, Poojah Ganesan et al.
Arizona State University
Adobe Research
结构化表格上的问答任务不仅需要准确的答案,还需要明确哪些单元格支持这些答案。现有系统很少提供细粒度的归因信息,导致即使答案正确也缺乏可验证的依据,限制了其在高风险场景下的可信度。本文提出TraceBack,一个模块化的多智能体框架,用于单表问答中的可扩展、单元格级别的归因。TraceBack通过剪枝表格以保留相关行和列,将问题分解为语义连贯的子问题,并将每个答案片段与其支持的单元格对齐,捕捉中间推理步骤中使用的显式和隐式证据。为了实现系统评估,我们发布了CITEBench基准测试集,包含从ToTTo、FetaQA和AITQA中提取的短语到单元格的标注数据。此外,我们还提出了FairScore,一种无需参考答案的指标,通过比较预测单元格和答案中推导出的原子事实来估计归因的精确率和召回率。实验表明,TraceBack在多个数据集和粒度上显著优于现有基线方法,而FairScore能够紧密跟踪人类判断并保持方法间的相对排名,支持对基于表格的问答进行可解释且可扩展的评估。
表格问答
多智能体系统
细粒度归因
推理能力
可解释性
论文聚焦于表格问答中的推理过程与细粒度归因,涉及中间推理步骤的显式和隐式证据捕捉。
分享
Code
夯
0
拉
0
Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng
上海交通大学
上海人工智能实验室
基于可验证奖励的强化学习(RLVR)通过采样轨迹训练大型语言模型(LLMs),使解码策略成为学习过程的核心组成部分,而非单纯的推理时选择。采样温度直接影响探索与利用的权衡,但现有方法依赖静态值或启发式调整,与任务级奖励脱节。本文提出Introspective LLM,一种分层强化学习框架,能够在生成过程中学习控制采样温度。在每个解码步骤中,模型根据其隐藏状态选择温度,并从结果分布中采样下一个标记。温度和标记策略通过坐标上升方案联合优化,以下游奖励为依据。在数学推理基准测试中的实验表明,所学温度策略优于固定和启发式基线,并表现出与推理不确定性一致的可解释探索行为。
强化学习
温度策略
数学推理
LLM优化
论文聚焦于通过温度策略提升LLM的推理能力,直接关联到数学推理任务中的探索与利用平衡。
分享
夯
0
拉
0
Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models
Hao Chen, Ye He, Yuchun Fan, Yukun Yan, Zhenghao Liu et al.
哈尔滨工业大学( Northeastern University, Tsinghua University )
知识增强显著提升了大语言模型(LLMs)在知识密集型任务中的表现。然而,现有方法通常基于一个简单的前提,即模型性能等同于内部知识,忽视了导致过度自信错误或不确定真相的知识-置信度差距。为弥合这一差距,本文提出了一种新的元认知框架,通过差异化的干预和对齐实现可靠的知识增强。该方法利用内部认知信号将知识空间划分为已掌握、困惑和缺失区域,指导有针对性的知识扩展。此外,我们引入了一种认知一致性机制,以同步主观置信度与客观准确性,确保校准后的知识边界。大量实验表明,我们的框架在多个基准测试中始终优于强基线,验证了其不仅提升知识能力,还能促进更好区分已知与未知的认知行为。
知识增强
元认知
认知一致性
推理能力
知识边界校准
论文聚焦于知识增强与认知一致性,直接关联LLM的推理能力与知识边界校准。
分享
夯
0
拉
0
G2CP: A Graph-Grounded Communication Protocol for Verifiable and Efficient Multi-Agent Reasoning
Karim Ben Khaled, Davy Monticolo
洛林大学
由大型语言模型驱动的多智能体系统面临关键挑战:智能体通过自然语言进行通信,导致语义漂移、幻觉传播和低效的token消耗。本文提出G2CP(基于图的通信协议),一种结构化的智能体通信语言,其中消息以图操作而非自由文本的形式进行交换。智能体在共享知识图谱上交换显式的遍历命令、子图片段和更新操作,从而实现可验证的推理轨迹并消除歧义。我们在一个工业知识管理系统中验证了G2CP,其中专门的智能体(诊断、程序、合成和摄入)协同回答复杂查询。在500个工业场景和21个真实维护案例中的实验结果表明,G2CP将智能体间通信token减少了73%,任务完成准确率比自由文本基线提高了34%,消除了级联幻觉,并生成了完全可审计的推理链。G2CP代表了从语言到结构化通信在多智能体系统中的根本转变,对任何需要精确智能体协调的领域都有重要意义。
多智能体系统
知识图谱
结构化通信
推理能力
可验证性
论文聚焦于多智能体系统的可验证推理,通过结构化通信协议提升推理效率和准确性。
分享
Code
夯
0
拉
0
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng et al.
Nanbeige LLM Lab
本文提出Nanbeige4.1-3B,一种仅使用30亿参数即可实现强大代理行为、代码生成和通用推理能力的统一通用语言模型。据我们所知,这是首个在单一模型中实现如此多功能性的开源小型语言模型(SLM)。为提升推理能力和偏好对齐,我们结合了点对点和成对奖励建模,确保高质量且符合人类偏好的响应。在代码生成方面,我们设计了复杂度感知奖励机制,在强化学习中优化正确性和效率。在深度搜索中,我们进行了复杂数据合成,并在训练过程中引入回合级监督。这使得Nanbeige4.1-3B能够稳定地进行长期工具交互,可靠地执行多达600次工具调用以解决复杂问题。大量实验结果表明,Nanbeige4.1-3B显著优于同类规模的先前模型,如Nanbeige4-3B-2511和Qwen3-4B,甚至在性能上超越了更大的模型,如Qwen3-30B-A3B。我们的结果表明,小型模型可以同时实现广泛的能力和强大的专业性,重新定义了30亿参数模型的潜力。
推理能力
强化学习
代码生成
偏好对齐
工具调用
论文重点研究模型的推理能力、偏好对齐及代码生成,强调推理与复杂问题解决。
分享
Code
夯
0
拉
0
BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
Jiangxi Chen, Qian Liu
上海交通大学
本文提出了BaziQA-Benchmark,一个用于评估大型语言模型在符号推理和时间组合推理方面表现的标准基准。该基准来源于2021年至2025年全球占卜师竞赛中精心挑选的200道多项选择题,每道题目都需要基于固定的符号图表进行结构化推理,并处理相互作用的时间条件。与轶事或提示驱动的评估不同,BaziQA-Benchmark能够实现客观评分并在不同年份、领域和模型家族之间进行受控比较。我们对当前的语言模型进行了多轮设置下的评估,并分析了其在时间难度、推理领域和推理协议方面的性能变化。为进一步探究推理行为,我们引入了一种轻量级的结构化推理协议,该协议通过约束推理顺序而不增加领域知识来限制推理过程。结果表明,模型的表现始终优于随机猜测,但距离饱和仍有较大差距,表现出对时间组合和推理顺序的高度敏感性,以及在精确时间定位和多条件符号判断方面的系统性失败。
符号推理
时间组合推理
基准测试
大语言模型评估
论文聚焦于评估LLM的符号推理与时间组合推理能力,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan et al.
PKU
OUC
CASIA
THU
随着多模态大语言模型(MLLMs)在规划和工具使用能力上的不断提升,它们正逐渐演变为能够在开放世界环境中执行多模态网页浏览和深度搜索的自主代理。然而,现有的多模态浏览基准在任务复杂性、证据可访问性和评估粒度方面仍存在局限,阻碍了对深度搜索能力进行全面且可复现的评估。为了解决这些问题,我们提出了BrowseComp-$V^3$,这是一个包含300个精心挑选且具有挑战性问题的新颖基准,覆盖多个领域。该基准强调深层、多层级和跨模态的多跳推理,关键证据在文本和视觉模态中交错分布。所有支持证据必须严格公开可搜索,以确保公平性和可复现性。除了最终答案的准确性,我们还引入了一种专家验证的子目标驱动过程评估机制,能够对中间推理行为进行细粒度分析,并系统地表征能力边界。此外,我们提出了OmniSeeker,一个统一的多模态浏览代理框架,集成了多样化的网络搜索和视觉感知工具。全面实验表明,即使最先进的模型在本基准上的准确率也只有36%,揭示了多模态信息整合和细粒度感知方面的关键瓶颈。我们的结果突显了当前模型能力与现实场景中稳健多模态深度搜索之间的根本差距。
多模态推理
深度搜索
基准测试
跨模态信息整合
多跳推理
论文聚焦于多模态搜索中的深层、跨模态推理,强调多层级和跨模态的多跳推理机制。
分享
夯
0
拉
0
TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)
Zhan Qu, Michael Färber
德国德累斯顿工业大学计算机科学系
大型语言模型(LLMs)虽然包含丰富的医学知识,但在处理长期患者轨迹时表现不佳,因为不断变化的临床状态、不规则的时间间隔和异构事件会随着时间推移降低性能。现有的适应策略依赖于微调或基于检索的增强方法,这会引入计算开销、隐私限制或长上下文下的不稳定性。本文提出TRACE框架,通过显式结构化和维护上下文,而非扩展上下文窗口或更新参数,使冻结的LLM具备时间临床推理能力。TRACE采用双记忆架构,包括静态的全局协议(编码机构临床规则)和动态的个体协议(跟踪患者特定状态)。四个智能体组件——路由器、推理器、审计员和守护者——协同工作以支持时间推理和状态演化。该框架通过结构化状态压缩保持有限的推理成本,并选择性地审计关键临床决策。在MIMIC-IV的纵向临床事件流上评估,TRACE显著提升了未来事件预测准确性、协议遵循度和临床安全性,同时生成可解释和可审计的推理过程。
时间推理
医疗健康
智能体系统
上下文管理
临床决策
论文核心聚焦于LLM在时间推理上的能力提升,特别是针对临床数据流的时序推理。
分享
夯
0
拉
0
VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.
Tongyi Lab, Alibaba Group
有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统检索增强生成(RAG)方法依赖线性交互历史,难以处理长上下文任务,尤其是在涉及信息稀疏但token密集的视觉数据的迭代推理场景中。为解决这一问题,我们提出了VimRAG框架,专门用于文本、图像和视频的多模态检索增强推理。受系统性研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于此结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆节点的重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃次要线索。为此,我们提出了一种图引导的策略优化方法,该方法通过剪枝与冗余动作相关的记忆节点,将步骤级有效性与轨迹级奖励解耦,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进的性能。
多模态推理
检索增强生成
图神经网络
智能体系统
论文聚焦于多模态信息的检索与推理,提出动态图结构建模推理过程,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian et al.
ByteDance XiaoHe Medical AI
本文提出MedXIAOHE,一种面向实际临床应用的医学视觉-语言基础模型,旨在提升通用医学理解和推理能力。该模型在多个医学基准测试中取得最先进的性能,并超越了多个领先的封闭源多模态系统。为实现这一目标,作者提出了一种基于实体感知的持续预训练框架,用于组织异构医学语料库以扩大知识覆盖范围并减少长尾差距(如罕见疾病)。为实现医学专家级别的推理与交互,MedXIAOHE通过强化学习和工具增强的智能体训练,整合了多样化的医学推理模式,支持多步骤诊断推理并提供可验证的决策轨迹。为提高实际应用中的可靠性,MedXIAOHE集成了用户偏好准则、基于证据的推理以及低幻觉的长篇报告生成,并提升了对医学指令的遵循度。本文发布此报告以记录实际设计选择、扩展见解及评估框架,希望激发进一步的研究。
医学多模态模型
推理能力
持续预训练
智能体训练
诊断推理
论文重点研究了医学领域的推理能力,包括多步骤诊断推理和可验证决策追踪。
分享
夯
0
拉
0
Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.
Fudan University
Tencent Hunyuan
Linus
大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖固定的认知模式:非思考模型生成即时响应,而思考模型则统一进行深度推理。这种刚性结构对于需要逐步变化认知需求的长期任务效率低下。本文提出CogRouter框架,训练代理在每一步动态适应认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。采用两阶段训练方法,包括认知感知监督微调(CoSFT)和认知感知策略优化(CoPO),通过置信度感知的优势重加权实现步骤级信用分配。关键见解是适当的认知深度应最大化行动结果的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token数量减少了62%。
认知深度自适应
ACT-R理论
推理优化
代理训练
论文聚焦于LLM代理在不同步骤中动态调整认知深度,直接涉及推理能力的提升与优化。
分享
Code
夯
0
拉
0
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
Xin-Qiang Cai, Masashi Sugiyama
RIKEN AIP, Tokyo, Japan
The University of Tokyo, Tokyo, Japan
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的主流范式,但其对外部验证器的依赖限制了其可扩展性。近期研究表明,RLVR主要通过激发模型潜在能力起作用,这促使了无验证器算法的发展。然而,在这种设置下,标准方法如组相对策略优化面临关键挑战:破坏性的梯度方差常导致训练崩溃。为了解决这一问题,我们提出了无验证器课程强化学习(VI-CuRL),该框架利用模型的内在置信度构建独立于外部验证器的课程。通过优先处理高置信度样本,VI-CuRL有效管理偏差-方差权衡,特别针对动作和问题方差的减少。我们提供了严格的理论分析,证明我们的估计器保证了渐近无偏性。实证表明,VI-CuRL在六个具有挑战性的基准测试中促进了稳定性,并在有/无验证器的情况下始终优于无验证器基线。
强化学习
推理能力
课程学习
方差控制
论文聚焦于增强LLM推理能力的RLVR方法,提出新的框架解决训练稳定性问题。
分享
夯
0
拉
0
Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL
Xubang Xiong, Raymond Chi-Wing Wong, Yuanfeng Song
清华大学
NoSQL数据库因其灵活性和可扩展性被广泛应用于大数据分析、地理空间应用和医疗保健服务。然而,查询NoSQL数据库需要专业的技术知识,给用户带来了较高的使用门槛。尽管近期研究探索了文本到NoSQL的问题,但主要集中在单轮交互上,忽略了现实世界中查询的对话性质。为此,本文引入了对话式文本到NoSQL任务,该任务根据自然语言问题、NoSQL数据库及对话历史生成NoSQL查询。为解决此任务,我们提出了Stage-MCTS框架,通过将查询生成建模为搜索问题,赋予小语言模型(SLMs)特定于NoSQL的推理能力。该框架采用基于规则奖励引导的蒙特卡洛树搜索(MCTS)生成逐步推理数据,并结合渐进监督微调(SFT)和自训练策略。此外,我们构建了CoNoSQL数据集,包含超过2000个对话和150个数据库,以支持评估。实验表明,我们的方法优于最先进的大型推理模型,在执行值匹配(EVM)准确性方面提升了高达7.93%。
Monte Carlo Tree Search
Reasoning Path Refinement
Conversational Text-to-NoSQL
Small Language Models
Query Generation
论文核心围绕推理能力展开,提出基于MCTS的推理路径优化方法以提升SLM在对话式文本到NoSQL查询任务中的表现。
分享
夯
0
拉
0
To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li et al.
Samsung Research, Beijing, China
Peking University
可验证奖励强化学习(RLVR)在激发大语言模型(LLMs)显式推理能力方面起着关键作用。通过RLVR,我们可以在某些特定领域(如编程或数学)实现专家级性能。当需要构建一个通用的多领域专家级模型时,必须仔细考虑跨不同领域的RLVR协作。当前最先进的模型主要采用两种不同的训练范式进行多领域RLVR:混合多任务RLVR和独立RLVR后合并模型。然而,大多数工作并未对这些范式进行详细比较和分析。为此,我们选择了多个常用的高层任务(如数学、编程、科学和指令遵循)作为目标领域,并使用开源数据集设计了广泛的定性和定量实验。我们发现跨领域的RLVR表现出很少的相互干扰,而推理密集型领域则表现出相互协同效应。此外,我们从权重空间几何、模型预测行为和信息约束的角度分析了这种互惠效应的内部机制。该项目命名为M2RL,意为混合多任务训练或独立训练后合并的强化学习方法。
强化学习
多领域推理
模型合并
可验证奖励
LLM推理能力
论文聚焦于强化学习对LLM推理能力的提升,涉及多领域推理协同与互惠效应,是推理能力的核心研究。
分享
Code
夯
0
拉
0
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha et al.
斯坦福大学
Meta 超智能实验室
南洋理工大学
统一模型能够在单一架构中处理多模态理解和生成任务,但通常仅进行单次推理而无迭代优化。许多复杂的多模态任务需要分解指令、验证中间结果并进行迭代修正。尽管测试时扩展(TTS)已被证明能显著提升语言模型性能,但将其扩展到统一多模态模型仍是一个挑战。本文提出UniT框架,实现多模态链式思维的测试时扩展,使单一统一模型能够进行多轮推理、验证与优化。该框架结合代理数据合成、统一模型训练和灵活的测试时推理,激发包括验证、子目标分解和内容记忆等认知行为。主要发现包括:(1) 在短推理轨迹上训练的统一模型可推广至更长的推理链;(2) 顺序链式推理比并行采样更具可扩展性和计算效率;(3) 在生成和编辑轨迹上训练可提升分布外视觉推理能力。这些结果确立了多模态测试时扩展作为推动统一模型生成与理解的有效范式。
多模态推理
链式思维
测试时扩展
统一模型
论文聚焦于多模态模型的推理能力提升,提出通过迭代推理和链式思维进行测试时扩展。
分享
夯
0
拉
0
On-Policy Context Distillation for Language Models
Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei
Microsoft Research
上下文蒸馏使语言模型能够将上下文知识内化为其参数。在本研究中,我们提出了一种名为On-Policy Context Distillation (OPCD)的框架,该框架通过在学生模型自身生成的轨迹上进行训练,并最小化与基于上下文的教师模型之间的反向Kullback-Leibler散度,将策略蒸馏与上下文蒸馏相结合。我们在两个重要应用中验证了OPCD的有效性:经验知识蒸馏,即模型从历史解决方案中提取并巩固可迁移的知识;以及系统提示蒸馏,即模型内化优化提示中编码的有益行为。在数学推理、基于文本的游戏和特定领域任务中,OPCD始终优于基线方法,在提高任务准确性的同时更好地保留了分布外能力。我们进一步表明,OPCD可以实现有效的跨规模蒸馏,较小的学生模型可以从较大的教师模型中内化经验知识。
知识蒸馏
推理能力
数学推理
上下文学习
论文聚焦于语言模型的推理能力提升,通过上下文蒸馏增强模型在数学推理等任务中的表现。
分享
夯
0
拉
0
Think like a Scientist: Physics-guided LLM Agent for Equation Discovery
Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad, Sharvaree Vadgama, Rose Yu
UCSD
通过符号化、可解释的公式解释观察到的现象是科学的基本目标。近年来,大语言模型(LLMs)因其广泛的领域知识和强大的推理能力,成为符号方程发现的有前途的工具。然而,大多数现有的基于LLM的系统试图直接从数据中猜测方程,而没有建模科学家通常遵循的多步骤推理过程:首先推断物理属性如对称性,然后利用这些属性作为先验条件来限制候选方程的空间。本文引入了KeplerAgent,一个遵循这一科学推理过程的代理框架。该代理协调基于物理的工具以提取中间结构,并利用这些结果配置符号回归引擎(如PySINDy和PySR),包括其函数库和结构约束。在一系列物理方程基准测试中,KeplerAgent在符号准确性方面显著优于LLM和传统基线方法,并且对噪声数据具有更高的鲁棒性。
symbolic regression
scientific reasoning
physics-guided LLM
equation discovery
论文聚焦于LLM的科学推理过程,强调符号公式发现中的多步逻辑推理机制。
分享
夯
0
拉
0
Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education
Mohamed Huti, Alasdair Mackintosh, Amy Waldock, Dominic Andrews, Maxime Lelièvre et al.
Fab AI
尽管AI模型在文本推理方面取得了最先进的成果,但其在空间和关系结构上的推理能力仍是一个关键瓶颈,尤其是在依赖视觉的小学数学教育中。本文介绍了视觉推理基准(VRB),这是一个用于评估多模态大语言模型(MLLMs)解决课堂真实视觉问题能力的新数据集。该基准基于来自赞比亚和印度小学考试的701个问题,涵盖类比推理、模式补全和空间匹配等任务。研究方法有意使用未经编辑且文字极少的图像,以测试模型是否能满足小学教育的实际需求。研究发现,模型在静态技能如计数和缩放上表现较好,但在折叠、反射和旋转等动态操作上存在明显的“空间天花板”。这些弱点可能影响课堂中视觉推理问题的教学效果,因此像VRB这样的教育导向基准对于确定多模态工具在课堂中的功能边界至关重要。
视觉推理
多模态模型
教育评估
空间认知
小学数学
论文聚焦于视觉推理能力评估,直接涉及LLM在空间和关系结构上的推理瓶颈。
分享
夯
0
拉
0
Statistical Parsing for Logical Information Retrieval
Greg Coppola
PhD
在先前的研究中(Coppola, 2024),我们引入了量化布尔贝叶斯网络(QBBN),这是一种实现自然演绎前向片段的概率因子图逻辑图形模型。该工作存在两个不足:缺乏否定/反向推理,以及缺少自然语言解析器。本文从推理、语义和语法三个层面弥补了这两个不足。在推理方面,我们通过引入NEG因子扩展了QBBN,使P(x) + P(neg x) = 1,并通过反向lambda消息实现逆否推理(modus tollens),从而完善了Prawitz的简单消去规则。系统处理了涵盖22种推理模式的44个测试用例。在语义方面,我们提出了一种带有角色标注谓词、模态量词和三层次表达能力的类型化逻辑语言。在语法方面,我们提出了一个类型槽语法,能够确定性地将句子编译为逻辑形式(33/33正确,无歧义)。LLMs在消歧方面表现良好(95% PP连接准确率),但无法直接生成结构化解析(UAS为12.4%),证明语法是必要的。架构上,LLM进行预处理,语法进行解析,LLM重新排序,QBBN进行推理。我们认为这调和了形式语义与Sutton的“苦涩教训”(2019):LLMs消除了导致形式NLP失败的注释瓶颈,作为注释者,而QBBN则作为验证者。
逻辑推理
自然语言解析
概率图模型
形式语义
LLM与符号系统结合
论文重点研究逻辑推理机制,包括否定、反向推理及自然语言解析,与推理能力密切相关。
分享
Code
夯
0
拉
0
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang et al.
上海人工智能实验室
大型语言模型(LLMs)在推理能力方面表现出色,但在科学推理任务中仍存在脆弱性,主要由于解决方案评估不可靠且验证策略多样性有限。本文提出Sci-CoE,一种两阶段的科学共进化框架,使模型能够在从稀疏监督过渡到无监督学习的过程中,同时作为求解器和验证器进行自我进化。第一阶段中,模型利用少量标注数据为验证器建立基础正确性判断锚点;第二阶段引入几何奖励机制,综合考虑共识性、可靠性和多样性,推动大规模无标签数据的自迭代。实验表明,Sci-CoE提升了复杂推理能力并具有良好的可扩展性,有助于构建更稳健和多样的评估系统。
科学推理
共进化
几何共识
稀疏监督
验证机制
论文聚焦于科学推理能力的提升,提出共进化框架以增强LLM的推理与验证机制。
分享
Code
夯
0
拉
0
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
Wancai Zheng, Hao Chen, Xianlong Lu, Linlin Ou, Xinyi Yu
浙江大学
物体导航是具身智能的核心能力,使智能体能够在未知环境中定位目标物体。尽管视觉-语言模型(VLM)的进步推动了零样本物体导航(ZSON)的发展,但现有方法通常依赖于场景抽象,将环境转换为语义地图或文本表示,导致高层决策受限于底层感知的准确性。本文提出3DGSNav,一种新颖的ZSON框架,通过将3D高斯点绘(3DGS)作为VLM的持久记忆,以增强空间推理能力。通过主动感知,3DGSNav逐步构建环境的3DGS表示,实现轨迹引导的自由视角渲染和前沿感知的第一人称视图。此外,我们设计了结构化视觉提示,并将其与思维链(CoT)提示相结合,进一步提升VLM的推理能力。在导航过程中,实时目标检测器筛选潜在目标,而由VLM驱动的主动视角切换执行目标重新验证,确保高效且可靠的识别。在多个基准测试和四足机器人上的实际实验表明,该方法在鲁棒性和性能方面均优于现有先进方法。
视觉-语言模型
空间推理
3D高斯点绘
物体导航
主动感知
论文重点提升VLM的空间推理能力,通过3DGS增强感知与决策的关联性,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction
Xiaoxiao Wang, Chunxiao Li, Junying Wang, Yijin Guo, Zijian Chen et al.
复旦大学上海人工智能实验室
上海交通大学
随着对大型模型进行全面评估的成本变得过高,从有限观察中预测模型性能变得至关重要。然而,现有的统计方法在模式变化、数据稀疏性和缺乏解释性方面存在困难,而纯粹的LLM方法则不可靠。本文提出STAR框架,该框架将数据驱动的统计期望与知识驱动的智能体推理相结合。STAR利用专门的检索器获取外部知识,并将语义特征嵌入到约束概率矩阵分解(CPMF)中,以生成带有不确定性的统计期望。然后,一个由期望违反理论(EVT)指导的推理模块通过家族内分析、跨模型比较和可信度感知聚合来优化预测,产生可追溯的解释。大量实验表明,STAR在基于分数和基于排名的指标上均优于所有基线,在极端稀疏条件下,其总分比最强的统计方法提高了14.46%,每个测试模型仅需1-2个观测分数。
模型性能预测
统计与智能体推理结合
不确定性建模
可解释性AI
论文聚焦于通过结合统计推理与智能体推理提升模型性能预测,核心涉及推理能力的增强。
分享
Code
夯
0
拉
0
WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models
Yangzhuo Li, Shengpeng Ji, Yifu Chen, Tianle Liang, Haorong Ying et al.
厦门大学
香港中文大学
浙江大学
随着先进推理能力在语音对话模型中的快速集成,领域迫切需要超越简单交互、应对现实复杂性的基准。然而,当前评估主要遵循文本生成标准,忽视了副语言和口语化表达的独特音频特性以及现代智能体所需的认知深度。为此,我们引入了WavBench,一个全面的基准,用于评估现有研究未能覆盖的真实对话能力。WavBench构建了一个三部分框架:1)Pro子集,通过显著增加难度来严格挑战增强推理能力的模型;2)Basic子集,定义了一种新的口语化表达标准,优先考虑自然词汇、语言流畅性和互动亲和力,而非严格的书面准确性;3)Acoustic子集,涵盖显式理解、生成和隐式对话,以严格评估真实场景下的综合副语言能力。通过对五种最先进模型的评估,WavBench为复杂问题解决、口语化表达和副语言保真度的交叉点提供了关键见解,指导稳健语音对话模型的发展。
语音对话模型
推理能力
副语言理解
口语化表达
基准测试
论文聚焦于对话模型的推理能力,设计了专门评估复杂推理、口语表达和副语言理解的基准。
分享
Code
夯
0
拉
0
Perceptual Self-Reflection in Agentic Physics Simulation Code Generation
Prashant Shende, Bradley Camburn
新加坡理工大学设计学院
本文提出了一种多代理框架,用于从自然语言描述中生成物理模拟代码,并引入了一种新颖的感知自反思机制进行验证。系统包含四个专业代理:自然语言解释器、技术需求生成器、物理代码生成器和物理验证器。关键创新在于感知验证,通过视觉语言模型分析渲染动画帧,而非直接检查代码结构,从而解决传统测试无法检测的语法正确但物理行为错误的问题。实验覆盖七个领域,结果显示该架构在多数场景中显著优于单次生成基线,具有稳定的流水线能力和较低的成本。结果验证了将视觉模拟输出反馈给视觉语言模型进行迭代优化在物理模拟任务中的优越性,并突显了代理AI在工程工作流和物理数据生成中的潜力。
物理模拟
多代理系统
视觉语言模型
代码生成
自反思机制
论文提出感知自反思机制,用于验证物理模拟代码的准确性,涉及推理与逻辑验证。
分享
夯
0
拉
0
Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication
Antonin Sulc
劳伦斯伯克利国家实验室
美国加州大学伯克利分校
随着多智能体AI系统从简单的聊天机器人发展为自主群体,调试语义失败需要对知识、信念、因果关系和义务进行推理,而这正是模态逻辑所设计的形式化内容。然而,传统模态逻辑需要手动指定在实际系统中未知或动态的关系结构。本文介绍了通过模态逻辑神经网络(MLNNs)实现的可微模态逻辑(DML),使系统能够仅从行为数据中学习信任网络、因果链和监管边界。文章提出了一个统一的神经符号调试框架,涵盖四个模态:认识论(信任谁)、时间(事件何时导致故障)、道义(允许哪些动作)和信念(如何解释智能体的信心)。每个模态均在具体的多智能体场景中进行了演示,包括从外交游戏中发现欺骗性联盟到检测LLM幻觉,并展示了如何将逻辑矛盾转化为可学习的优化目标。关键贡献包括:(1)可解释的学习结构,其中信任和因果关系是显式参数而非不透明嵌入;(2)通过可微分公理注入知识以指导稀疏数据下的学习;(3)组合多模态推理,结合认识论、时序和道义约束;以及(4)适用于监控、主动控制和通信的多智能体系统的实际部署模式。所有代码均以可执行的Jupyter Notebook形式提供。
多智能体系统
模态逻辑
神经符号系统
可微推理
信任网络
论文聚焦于基于模态逻辑的可微推理框架,用于多智能体系统的诊断与通信,直接涉及推理机制的设计与实现。
分享
Code
夯
0
拉
0
Tiny Recursive Reasoning with Mamba-2 Attention Hybrid
Wenlong Wang, Fergal Reid
Intercom
近期关于递归推理模型(如TRM)的研究表明,小型网络(7M参数)可以通过潜在递归机制在抽象推理任务中取得良好性能。本文探讨了将Mamba-2状态空间递归引入递归框架是否能保持推理能力。通过将TRM中的Transformer模块替换为Mamba-2混合操作符,并保持参数数量相近(6.83M vs 6.86M),实验结果表明,在ARC-AGI-1数据集上,混合模型在pass@2指标上提升了2.0%,且在更高K值下表现更优,同时保持了pass@1的一致性。这表明混合模型提高了候选解覆盖范围,生成正确解的能力更强。研究验证了Mamba-2混合操作符在递归框架中保留推理能力,确立了基于SSM的操作符作为递归操作符设计空间中的可行选择。
递归推理
Mamba-2
参数效率
抽象推理
SSM
论文聚焦于递归推理模型的改进,探讨Mamba-2在递归推理中的有效性,直接涉及推理能力提升。
分享
夯
0
拉
0
LawThinker: A Deep Research Legal Agent in Dynamic Environments
Xinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou
Renmin University of China
法律推理不仅需要正确的结果,还需要符合程序规范的推理过程。然而现有方法缺乏对中间推理步骤的验证机制,导致错误(如不适用的法规引用)在推理链中未被检测到。为此,本文提出LawThinker,一种采用探索-验证-记忆策略的自主法律研究代理,适用于动态司法环境。其核心思想是在每次知识探索后强制执行验证操作。DeepVerifier模块从知识准确性、事实与法律的相关性以及程序合规性三个维度检查每个检索结果,并通过记忆模块实现长周期任务中的跨轮次知识复用。在动态基准J1-EVAL上的实验表明,LawThinker相比直接推理方法提升了24%,比基于工作流的方法提升了11%,尤其在面向过程的指标上表现突出。在三个静态基准上的评估进一步验证了其泛化能力。
legal reasoning
verification
agent system
knowledge retrieval
论文聚焦于法律推理过程的验证与改进,核心机制围绕推理步骤的准确性与合规性展开。
分享
Code
夯
0
拉
0
When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
Shani Goren, Ido Galil, Ran El-Yaniv
Technion
NVIDIA
尽管大语言模型(LLMs)被广泛应用,但其在事实性错误方面仍存在问题,影响用户信任和高风险场景的采用。一种缓解方法是为模型配备不确定性估计机制,在置信度低时进行回避。然而,这种二元“全有或全无”的方法在长文本生成中过于严格,常导致有价值信息的丢失。本文提出选择性抽象(Selective Abstraction, SA)框架,使LLMs能够在不确定内容上通过选择性减少细节来换取可靠性。首先,我们从选择性风险和覆盖率的角度形式化SA;然后提出原子级选择性抽象,将响应分解为表达单一事实的原子声明,并用更高置信度、更少细节的抽象替换不确定的原子。为了评估该框架,我们开发了一个端到端的开放生成流水线,将风险定义为事实正确性,并使用信息论指标衡量覆盖率。在FactScore和LongFact-Objects基准上的六种开源模型实验表明,原子级SA显著优于现有基线,将风险-覆盖率曲线下的面积(AURC)提升了高达27.73%,证明减少具体性可以提高准确性和可靠性,同时保留大部分原始含义。
不确定性估计
事实准确性
长文本生成
选择性抽象
推理可靠性
论文聚焦于LLM在长文本生成中的推理可靠性,通过选择性抽象提升事实准确性,属于推理能力的核心研究。
分享
夯
0
拉
0
Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models
Lu Tao, Jinxuan Luo, Yousuke Watanabe, Zhengshu Zhou, Yuhuan Lu et al.
拉夫堡大学,英国
动态地图(DM)是中国和日本车路云(VRC)协同自动驾驶的基础信息基础设施。通过提供全面的交通场景表示,DM克服了独立自动驾驶系统(ADS)的物理遮挡等限制。尽管增强DM的ADS已在日本实际应用中部署成功,但现有DM系统仍缺乏支持自然语言(NLS)的人机交互接口,这将显著提升人与DM的交互能力。为弥补这一不足,本文引入了VRCsim,一个用于生成流式VRC协同感知数据的仿真框架。基于VRCsim,我们构建了一个名为VRC-QA的数据集,专注于混合交通场景中的空间查询与推理。在此基础上,我们进一步提出了Talk2DM,一个可插拔模块,扩展了VRC-DM系统的自然语言查询与常识推理能力。Talk2DM基于一种新颖的提示链(CoP)机制,逐步整合用户定义规则与大语言模型(LLMs)的常识知识。在VRC-QA上的实验表明,Talk2DM可以在不同LLM之间无缝切换并保持高精度的自然语言查询,展示了其强大的泛化能力。虽然更大的模型通常具有更高的准确性,但效率下降明显。我们的结果表明,由Qwen3:8B、Gemma3:27B和GPT-oss模型驱动的Talk2DM实现了超过93%的自然语言查询准确率,平均响应时间仅为2-5秒,显示出良好的实用潜力。
自然语言处理
常识推理
动态地图
车路云协同
大语言模型
论文核心围绕常识推理与自然语言查询,提出基于大模型的推理机制。
分享
Code
夯
0
拉
0
Prototype Transformer: Towards Language Model Architectures Interpretable by Design
Yordan Yordanov, Matteo Forasassi, Bayar Menzat, Ruizhi Wang, Chang Qi et al.
University of Oxford
尽管最先进的语言模型在某些领域超越了绝大多数人类,但其推理过程仍然 largely 不透明,这削弱了对其输出的信任。此外,虽然自回归语言模型可以输出显式的推理,但其真实的推理过程是不透明的,这可能带来欺骗和幻觉等风险。本文提出了一种基于原型(参数向量)的自回归语言模型架构——原型Transformer(ProtoT),作为对标准自注意力机制Transformer的替代方案。ProtoT通过输入序列与原型之间的双向通信工作,并展示了原型在训练过程中自动捕捉可命名概念(如“女人”)的能力。这些原型为解释模型的推理过程提供了可能性,并允许有针对性地修改其行为。此外,原型的设计创建了聚合不同时间尺度上下文信息的通信通道,有助于提高可解释性。在计算可扩展性方面,ProtoT的规模随序列长度线性增长,而当前最先进的自注意力Transformer则呈二次增长。与基线相比,ProtoT在模型和数据规模上表现良好,在文本生成和下游任务(GLUE)中也表现出色。ProtoT在输入扰动下的鲁棒性与部分基线相当或更好,但其独特之处在于提供了展示鲁棒性和敏感性如何产生的可解释路径。ProtoT的表现接近最先进的架构,为创建性能优异且可解释的自回归语言模型铺平了道路。
可解释性
原型网络
自回归模型
推理机制
论文聚焦于提升语言模型的推理可解释性,直接关联到推理能力的研究。
分享
夯
0
拉
0
Detecting RLVR Training Data via Structural Convergence of Reasoning
Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang et al.
新疆大学计算机科学与技术学院
新疆大学人工智能研究院
可验证奖励强化学习(RLVR)是训练现代推理模型的核心方法,但其未公开的训练数据引发了基准污染的担忧。与基于词元概率优化的预训练方法不同,RLVR通过自生成推理轨迹的奖励反馈对模型进行微调,使得传统的基于似然的检测方法效果不佳。本文发现RLVR会引发一种独特的行为特征:在RLVR训练过程中遇到的提示会导致更僵化和相似的生成结果,而未见过的提示则保留更高的多样性。我们提出了一种简单的黑盒检测器Min-$k$NN Distance,通过为给定提示采样多个完成结果并计算$k$个最小最近邻编辑距离的平均值来量化这种坍缩现象。该方法无需访问参考模型或词元概率。实验表明,Min-$k$NN Distance能够可靠地区分RL训练中见过和未见过的示例,并优于现有的成员推理和RL污染检测基线。
RLVR
推理模型
数据检测
黑盒检测
结构收敛
论文聚焦于RLVR训练数据检测,与推理模型的行为特征密切相关,属于推理能力研究的核心内容。
分享
Code
夯
0
拉
0
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.
浙江大学-威斯莱大学联合实验室
威斯莱大学先进科技研究所
实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为解决这一问题,我们提出了长度激励探索(Length-Incentivized Exploration)方法。该方法通过结合基于长度的奖励与冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3、Llama)上的全面实验表明,该方法有效激励了上下文探索。结果表明,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中提升了2.7%。
In-Context Learning
Reinforcement Learning
Reasoning Hypothesis
State Coverage
论文聚焦于提升LLM的推理能力,通过鼓励更长的推理轨迹来增强上下文探索,直接关联到推理机制的改进。
分享
Code
夯
0
拉
0
Right for the Wrong Reasons: Epistemic Regret Minimization for Causal Rung Collapse in LLMs
Edward Y. Chang
Stanford University
当前机器学习系统可能通过捷径实现高准确率,但这些系统在分布偏移下表现不佳。本文揭示了这种问题的因果根源:自回归训练无法区分相关性P(Y|X)与干预P(Y|do(X)),导致因果层级崩溃。当基于结果的学习强化了错误因果模型下的正确答案时,代理会陷入错误推理。为此,本文提出认知遗憾最小化(ERM)目标函数,独立于任务成功惩罚因果推理错误,并构建三层架构进行知识表示。实验表明,即使在增强推理能力的模型中,因果层级崩溃仍存在,而ERM反馈可有效纠正部分错误。
因果推理
认知修正
分布偏移
LLM缺陷分析
论文聚焦于LLM的因果推理缺陷及改进方法,直接涉及推理能力中的因果建模与错误修正机制。
分享
夯
0
拉
0
PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning
Ruixiang Feng, Yuntao Wen, Silin Zhou, Ke Shi, Yifan Wang et al.
清华大学电子工程系
Nanbeige Lab, BOSS Zhijin
语言推理模型(LRMs)通过扩展测试时计算量实现了强大的性能,但常因过度思考而产生冗长的推理轨迹,增加延迟和内存使用。现有LRMs通常采用统一长度惩罚来强制简洁性,这在序列层面过度压缩了关键的早期推理步骤,并在组层面无差别地惩罚所有查询。为解决这些问题,本文提出了一种名为PACE的双层级框架,在分层监督下实现前缀保护和难度感知压缩。在序列层面,前缀保护优化采用衰减混合展开策略,以保持有效的推理路径并促进简洁性;在组层面,难度感知惩罚根据查询复杂度动态调整长度约束,在保证对较难问题探索的同时减少简单问题的冗余。在DeepSeek-R1-Distill-Qwen(1.5B/7B)上的大量实验表明,PACE显著减少了token使用量(高达55.7%),同时在数学基准测试中提升了准确率(高达4.1%),并在代码、科学和通用领域表现出良好的泛化能力。
推理优化
语言模型压缩
深度学习
高效推理
论文聚焦于提升语言推理模型的推理效率与准确性,直接涉及推理能力优化机制。
分享
Code
夯
0
拉
0
Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation
Shuo Lu, Jianjie Cheng, Yinuo Xu, Yongcan Yu, Lijun Sheng et al.
NLPR & MAIS, CASIA
School of AI, UCAS
Meituan Inc.
多模态大语言模型(MLLMs)在感知导向任务上表现出色,但其在数学空间推理方面的能力尚不明确。人类在教科书式空间推理问题上的准确率超过95%,而主流MLLMs的准确率甚至低于60%。为探究这一差距,本文提出了MathSpatial框架,包含MathSpatial-Bench基准测试集、MathSpatial-Corpus训练数据集以及MathSpatial-SRT推理模型。实验表明,在MathSpatial上微调Qwen2.5-VL-7B可显著提升推理准确性并减少计算量。该框架首次将感知与推理分离,为评估和理解MLLMs的数学空间推理能力提供了大规模资源。
数学推理
空间推理
多模态模型
基准测试
推理框架
论文聚焦于多模态大语言模型在数学空间推理能力上的评估与改进,属于推理能力的核心研究。
分享
夯
0
拉
0
PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering
Xiangfeng Wang, Hangyu Guo, Yanlin Lai, Mitt Huang, Liang Zhao et al.
中国科学技术大学
StepFun
尽管基于模型的验证器对于扩展具有可验证奖励的强化学习(RLVR)至关重要,但当前以结果为中心的验证范式主要关注最终结果与真实值之间的一致性,常常忽视推导过程中的潜在错误。这导致了从错误推导中得出正确答案时仍被赋予正奖励。为弥补这一差距,我们引入了PRIME,一个用于评估数学和工程领域中过程-结果对齐验证的基准。PRIME通过基于一致性的过滤流程,从大量大学水平的STEM问题中精选出2530个高难度样本。通过广泛评估,我们发现当前验证器经常无法检测到推导缺陷。此外,我们提出了一种基于过程感知的RLVR训练范式,利用PRIME筛选出的验证器进行训练。该方法显著优于仅基于结果的验证基线,在Qwen3-14B-Base模型上分别实现了8.29%、9.12%和7.31%的绝对性能提升。最后,我们展示了验证器在PRIME上的准确性与RLVR训练效果之间的强线性相关性(R² > 0.92),验证了PRIME作为验证器选择可靠预测工具的有效性。
verifiable reasoning
process-outcome alignment
RLVR training
mathematical engineering benchmark
论文聚焦于数学与工程中的可验证推理过程,强调推理过程与结果的一致性,直接关联到推理能力的评估与改进。
分享
Code
夯
0
拉
0
SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent
Wenlin Zhong, Jinluan Yang, Yiquan Wu, Yi Liu, Jianhang Yao et al.
浙江大学
Hangzhou, China
长青科技有限公司
Chongqing, China
强化学习(RL)已使大型语言模型(LLMs)能够自主完成复杂问答任务的搜索。然而,在多轮搜索场景中,搜索结果常存在高冗余和低信噪比的问题,导致代理陷入“隧道视野”,即早期噪声检索的强制解释引发不可逆的错误累积。为解决这些问题,本文提出SIGHT框架,通过自证支持(SES)和信息增益驱动的多样化分支增强基于搜索的推理能力。SIGHT通过SES提炼高保真证据,并计算信息增益分数以识别关键状态,从而指导动态提示干预(如去重、反思或自适应分支),生成新的分支。最终,通过组相对策略优化将SES与正确性奖励结合,SIGHT无需外部验证器即可内化稳健的探索策略。实验表明,SIGHT在单跳和多跳问答基准测试中显著优于现有方法,尤其在复杂推理场景中使用更少的搜索步骤。
强化学习
搜索代理
推理能力
信息增益
自证支持
论文聚焦于增强基于搜索的推理能力,提出SIGHT框架解决多轮搜索中的冗余和噪声问题。
分享
夯
0
拉
0
CausalAgent: A Conversational Multi-Agent System for End-to-End Causal Inference
Jiawei Zhu, Wei Chen, Ruichu Cai
广东工业大学
因果推断在医疗、经济和社会科学等领域具有重要价值。然而,传统因果分析工作流存在显著技术障碍,要求研究人员同时具备统计学和计算机科学背景,并手动选择算法、处理数据质量问题及解释复杂结果。为解决这些问题,本文提出CausalAgent,一个用于端到端因果推断的对话式多智能体系统。该系统创新性地整合了多智能体系统(MAS)、检索增强生成(RAG)和模型上下文协议(MCP),通过自然语言交互实现从数据清洗、因果结构学习到偏差校正和报告生成的自动化。用户只需上传数据集并以自然语言提问,即可获得严谨且交互式的分析报告。作为新型以用户为中心的人机协作范式,CausalAgent显式建模分析流程,并通过交互式可视化显著降低因果分析的入门门槛,同时确保过程的严谨性和可解释性。
因果推断
多智能体系统
自然语言交互
自动化分析
人机协作
论文聚焦于因果推理的自动化流程,涉及复杂逻辑与分析,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Human-Inspired Continuous Learning of Internal Reasoning Processes: Learning How to Think for Adaptive AI Systems
Hong Su
清华大学计算机科学与技术系,北京
学习内部推理过程对于开发能够在动态现实环境中持续适应的AI系统至关重要。然而,现有方法大多强调任务特定输出或静态知识表示的学习,忽视了内部推理结构、行动调度策略和学习机制本身的持续优化。本文提出了一种受人类启发的连续学习框架,通过并行学习增强的顺序推理模型,统一了推理、行动、反思和验证。该框架将内部思维过程作为主要学习对象,系统记录内部推理轨迹和环境交互作为结构化学习材料,使系统不仅优化任务级内容,还优化推理活动的组织、调度和演化。该设计实现了处理与学习同步进行,使认知结构在执行过程中得到提升。此外,框架支持预定义逻辑的可控替换,并引入了联合适应任务级参数和学习策略的分层学习机制。实验结果表明,在温度传感器异常检测任务中,结合内部过程学习可使平均运行时间减少23.9%。
持续学习
推理机制
自适应AI
内部过程学习
认知架构
论文核心聚焦于内部推理过程的持续学习,直接涉及推理机制的优化与进化。
分享
夯
0
拉
0
Multimodal Fact-Level Attribution for Verifiable Reasoning
David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee et al.
美国南加州大学计算机科学系
多模态大语言模型(MLLMs)越来越多地用于需要多步骤推理和长文本生成的实际任务,其中可靠性要求模型输出基于异构输入源并验证单个事实声明。然而,现有的多模态基准和评估方法主要关注简化场景或有限模态,无法评估复杂多模态推理中的归因能力。本文引入MuRGAt(基于多模态推理的归因基准),用于评估需要超越直接观察的多模态事实级归因。给定涵盖视频、音频等多模态输入,MuRGAt要求模型生成带有明确推理和精确引用的答案,每个引用需指定模态和时间片段。为实现可靠评估,我们引入了一个与人类判断高度相关的自动评估框架。实验表明,即使强大的MLLMs在推理正确的情况下也常出现虚假引用。此外,研究发现推理深度增加或强制结构化归因往往会降低准确性,揭示了内部推理与可验证归因之间的显著差距。
multimodal reasoning
fact attribution
verifiable reasoning
model evaluation
论文聚焦于多模态模型中的事实级归因与可验证推理,直接涉及LLM的推理能力与逻辑可靠性。
分享
Code
夯
0
拉
0
Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao et al.
阿里巴巴集团有限公司
EPIC实验室
可验证奖励的强化学习(RLVR)显著提升了多模态大语言模型(MLLMs)的推理能力,但视觉证据在推理过程中的整合机制仍不明确。本文从跨模态注意力连接的角度探索多模态RLVR,发现仅有约15%的token表现出强烈的视觉-文本耦合。这些高连接性token作为锚点,将推理过程与图像关联,而大多数token则遵循语言模式。在RLVR训练过程中,信用分配自然集中在这些锚点上,随着时间推移增强了其视觉基础。基于这一发现,我们提出锚点token强化学习(AT-RL),一种轻量级框架,通过注意力拓扑的图聚类选择性地增强高连接性token。在多个规模模型(3B-32B)上的评估表明,AT-RL仅引入1.2%的开销,却使32B模型在MathVista任务中超越了72B-Instruct基线(80.2),并在STEM、视频和通用任务中均取得稳定提升。相反,仅训练低连接性token会导致严重退化,证实有效的多模态强化学习依赖于对视觉锚点的精确信用分配。本研究揭示推理质量由跨模态锚定的准确性决定,而非token数量。
强化学习
多模态模型
跨模态注意力
推理优化
视觉-文本耦合
论文聚焦于多模态大语言模型的推理能力提升,通过强化学习与视觉证据整合机制进行深入研究。
分享
夯
0
拉
0
LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation
Ahmadreza Jeddi, Marco Ciccone, Babak Taati
多伦多大学
Vector Institute
多伦多大学健康网络
循环Transformer已成为语言领域推理任务中高效且强大的模型类别。近期研究表明,这些模型在算法和推理任务中表现出色,表明循环架构具有对潜在推理的归纳偏置。然而,先前方法在训练和推理过程中固定了循环迭代次数,未解决模型是否能根据计算预算灵活调整计算深度的问题。本文提出LoopFormer,一种基于可变长度轨迹训练的循环Transformer,支持预算条件下的推理。其核心贡献是一种快捷一致性训练方案,对齐不同长度的轨迹,确保较短循环生成信息丰富的表示,而较长循环则继续优化这些表示。LoopFormer根据当前时间和步长对每个循环进行条件化,使不同长度轨迹的表示能够一致演化,而非漂移或停滞。实验证明,即使在严格的计算约束下,LoopFormer在语言建模和推理基准测试中仍表现出稳健性能,并能随着预算增加优雅扩展。这些结果表明,循环Transformer本质上适合自适应语言建模,为可控且预算感知的大语言模型开辟了新路径。
循环Transformer
潜在推理
预算感知建模
语言建模
自适应计算
论文聚焦于Looped Transformers在推理任务中的表现及适应性,直接关联推理能力提升。
分享
Code
夯
0
拉
0
TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning
Sina Tayebati, Divake Kumar, Nastaran Darabi, Davide Ettori, Ranganath Krishnan et al.
University of Illinois at Chicago
AI Labs at Capital One
在现实世界中,AI智能体与人类进行多轮工具交互时,估计其不确定性具有挑战性,因为失败通常由稀疏的关键事件(如循环、不连贯的工具使用或用户-智能体协调失误)触发,而局部生成结果可能显得自信。现有不确定性代理主要关注单次文本生成,忽略了轨迹级别的崩溃信号。本文提出TRACER,一种面向双控工具-智能体-用户交互的轨迹级不确定性度量方法。TRACER结合内容感知的惊讶值、情境感知信号、语义和词汇重复以及工具支持的连贯性缺口,并通过尾部聚焦的风险函数与MAX复合步骤风险进行聚合,以揭示决定性异常。我们在$τ^2$-bench上对TRACER进行了评估,预测任务失败和选择性任务执行。结果表明,TRACER在AUROC和AUARC指标上分别比基线提升了37.1%和55%,实现了更早且更准确地检测复杂对话式工具使用场景中的不确定性。
不确定性估计
轨迹分析
工具-智能体交互
推理能力评估
论文聚焦于Agent在多轮工具使用中的推理不确定性,提出轨迹级风险度量方法,直接关联到推理能力的评估与改进。
分享
Code
夯
0
拉
0
Finding the Cracks: Improving LLMs Reasoning with Paraphrastic Probing and Consistency Verification
Weili Shi, Dongliang Guo, Lehan Yang, Tianlong Wang, Hanzhang Yuan et al.
弗吉尼亚大学数据科学学院
大型语言模型在多种推理任务中表现出色,但在更复杂的任务中,其问题解决能力常因幻觉和中间步骤中的错误累积而下降。近期研究引入了关键token的概念,即对后续推理步骤有显著影响的token。尽管已有研究表明替换关键token可以优化推理路径,但可靠地识别和利用这些token仍具挑战性。为此,本文提出了释义探测与一致性验证(PPCV)框架。PPCV分为两个阶段:第一阶段通过原始问题生成初始推理路径,并将其与问题的释义版本连接,基于预测top-1 token与预期token之间的不匹配来识别关键token;第二阶段则用候选替代token替换关键token,并为原始和释义问题生成新的推理路径,最终答案由这些并行推理过程的输出一致性决定。实验表明,PPCV显著提升了主流LLMs在多个基准测试中的推理性能。
reasoning
hallucination
token identification
consistency verification
论文聚焦于提升LLM的推理能力,提出PPCV框架解决中间步骤错误和幻觉问题。
分享
夯
0
拉
0
CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi
Sentient Labs
University of California, San Diego
现代分析师代理必须对包含大量检索文档、工具输出和时间敏感数据的复杂高token输入进行推理。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为高数据密度代表,引入CryptoAnalystBench基准,包含198个生产环境中的加密货币与DeFi查询,并构建了一个配备相关工具的代理框架,用于生成多个前沿LLM的响应。通过人类标注,开发了一种包含七类高级错误类型的分类体系,并改进了评估标准,以更准确捕捉这些错误。研究表明,即使在最先进的系统中,这些失败仍存在,并可能影响高风险决策。本文发布CryptoAnalystBench及相关评估流程、评分标准和错误分类体系,并提出缓解策略与开放挑战。
LLM推理
多工具集成
错误分类
加密货币分析
基准测试
论文聚焦于LLM在处理复杂、多工具输出时的推理失败模式,属于推理能力研究的核心内容。
分享
Code
夯
0
拉
0
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
NVIDIA
链式推理数据的监督微调(SFT)是推理语言模型的重要后训练步骤。通常认为更多独特的训练样本能带来更好的泛化效果。然而,本文发现重复训练在固定更新预算下表现更优:在较小数据集上进行更多轮次训练,比在更大数据集上单轮训练效果更好。实验表明,在AIME'24/25和GPQA基准测试中,Olmo3-7B模型在400个样本上训练128轮,比在51200个样本上训练1轮高出12-26个百分点,且没有额外的灾难性遗忘。研究发现,训练时的标记准确率可以可靠地指示重复训练是否达到饱和;当完全记忆时,额外轮次带来的改进趋于稳定。这些发现为推理SFT提供了一种实用方法,即以标记准确率为停止标准来替代昂贵的数据扩展。本文将重复训练的优势视为一个新问题,提出当完全记忆与泛化能力提升一致时,有助于理解大语言模型的训练动态。
监督微调
链式推理
重复训练
泛化能力
标记准确率
论文聚焦于链式推理数据的监督微调,探讨如何通过重复训练提升推理模型性能,直接关联推理能力的优化。
分享
Code
夯
0
拉
0
GENIUS: Generative Fluid Intelligence Evaluation Suite
Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen et al.
Peking University
统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估晶体智力,即依赖于回忆积累知识和学习模式的能力。这种关注忽略了生成性流体智能(GFI),即在即时情境中归纳模式、通过约束进行推理并适应新场景的能力。为严格评估这一能力,我们引入了GENIUS(生成性流体智能评估套件)。我们将GFI形式化为三个基本要素的综合:归纳隐式模式(如推断个性化视觉偏好)、执行临时约束(如可视化抽象隐喻)以及适应上下文知识(如模拟反直觉物理)。这些要素共同挑战模型解决完全基于即时情境的问题。对12个代表性模型的系统评估揭示了这些任务中的显著性能缺陷。关键的是,我们的诊断分析区分了这些失败模式,表明问题源于有限的情境理解而非内在生成能力不足。为弥补这一差距,我们提出了一种无需训练的注意力干预策略。最终,GENIUS为GFI建立了严格的评估标准,引导该领域从知识利用转向动态、通用的推理。
生成性流体智能
多模态模型评估
动态推理
上下文适应
论文聚焦于评估模型的生成性流体智能,涉及模式归纳、约束执行和上下文适应,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
MultiCube-RAG for Multi-hop Question Answering
Jimeng Shi, Wei Hu, Runchu Tian, Bowen Jin, Wonbin Kweon et al.
University of Illinois Urbana-Champaign
多跳问答(QA)需要跨多个相互关联的主题、属性和关系进行多步骤推理和检索。现有的检索增强生成(RAG)方法难以准确捕捉这些结构化语义,导致性能不佳。基于图的RAG方法虽然将信息结构化为图,但生成的图通常存在噪声且计算成本高。此外,大多数方法依赖单步检索,忽略了多跳推理过程的需求。近期基于训练的方法尝试激励大语言模型(LLMs)进行迭代推理和检索,但其训练过程易出现不稳定收敛和高计算开销。为解决这些问题,我们设计了一个基于本体的立方体结构,具有多个正交维度,用于建模结构化主题、属性和关系。基于该立方体结构,我们提出了MultiCube-RAG,一种无需训练的方法,包含多个立方体以实现多步骤推理和检索。每个立方体专门用于建模某一类主题,使MultiCube-RAG能够灵活选择最合适的立方体以精确获取相关知识。为增强基于查询的推理和检索,我们的方法沿立方体维度将复杂的多跳查询分解为一系列简单的子查询,并依次解决它们。在四个多跳QA数据集上的实验表明,MultiCube-RAG相比多种基线方法平均提升了8.9%的响应准确性。值得注意的是,我们的方法还表现出更高的效率和内在可解释性。
多跳问答
检索增强生成
结构化语义建模
多步推理
论文聚焦于多跳问答中的推理与检索机制,提出MultiCube-RAG以提升结构化语义建模和多步推理能力。
分享
夯
0
拉
0
Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Furong Huang, Dinesh Manocha et al.
马里兰大学
印度理工学院(IIT)
中央佛罗里达大学
基于强化学习的后训练方法(如GRPO)可以提升多模态大规模推理模型(MLRMs)的推理能力,但近期研究表明这可能同时降低安全对齐性并增加越狱成功率。本文提出SafeThink,一种轻量级的推理时防御机制,将安全恢复视为满足条件的约束而非最大化目标。SafeThink通过安全奖励模型监控推理过程,并在安全阈值被违反时注入优化后的短纠正前缀(如“Wait, think safely”)。实验表明,在六个开源MLRMs和四个越狱基准测试中,SafeThink将攻击成功率降低了30-60%,同时保持了推理性能。关键发现是,安全恢复通常只需要干预前1-3步推理步骤即可实现。
安全对齐
推理模型
越狱防御
强化学习
推理修正
论文聚焦于推理模型的安全恢复,直接涉及推理过程中的安全约束与修正机制。
分享
Code
夯
0
拉
0
Conversational Behavior Modeling Foundation Model With Multi-Level Perception
Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy et al.
University of California, Berkeley, CA, USA
South China University of Technology, Guangzhou, Guangdong, China
人类对话通过隐式的思维链组织,表现为定时的语言行为。捕捉这一感知路径是构建自然全双工交互系统的关键。本文提出一种框架,将该过程建模为多级感知,并通过思维图(GoT)进行对话行为推理。该方法采用分层标注方案形式化意图到动作的路径,预测高层沟通意图和低层语言行为以学习其因果和时间依赖关系。为了训练该系统,我们开发了一个高质量语料库,包含可控且事件丰富的对话数据及人工标注标签。GoT框架将流式预测结构化为一个动态演化图,使Transformer能够预测下一个语言行为、生成简洁的决策依据并动态优化推理。在合成和真实全双工对话上的实验表明,该框架实现了稳健的行为检测,生成可解释的推理链,并为全双工语音对话系统的对话推理基准测试奠定了基础。
对话建模
思维图
因果推理
全双工交互
语言行为预测
论文核心研究基于多级感知的对话行为建模与推理机制,涉及因果和时序依赖关系。
分享
夯
0
拉
0
Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics
Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang et al.
ByteDance
National University of Singapore
University of Science and Technology of China
尽管思维链(CoT)在大语言模型(LLM)推理中起着关键作用,但直接对其进行奖励具有挑战性:训练奖励模型需要大量的人工标注工作,而静态奖励模型难以应对不断变化的CoT分布和奖励黑客问题。为了解决这些问题,本文提出了一种无需人工标注且能逐步进化的自主CoT奖励方法。受近期自进化训练方法的启发,我们提出了RLCER(基于自进化评分标准的强化学习),该方法通过自提出和自进化的评分标准增强以结果为中心的RLVR。实验表明,即使没有结果奖励,这些自提出和自进化的评分标准也能提供可靠的CoT监督信号,使RLCER优于以结果为中心的RLVR。此外,当用作提示中的提示时,这些自提出的评分标准进一步提升了推理时的表现。
chain-of-thought
self-evolving
reward model
reinforcement learning
LLM reasoning
论文聚焦于增强LLM的推理能力,通过自进化评分标准优化思维链推理。
分享
Code
夯
0
拉
0
Beyond Confidence: The Rhythms of Reasoning in Generative Models
Deyuan Liu, Zecheng Wang, Zhanyue Qin, Zhiying Tu, Dianhui Chu et al.
Harbin Institute of Technology
大型语言模型(LLMs)展现出令人印象深刻的性能,但对输入上下文微小变化敏感,影响可靠性。传统指标如准确率和困惑度无法评估局部预测的鲁棒性,因为归一化输出概率可能掩盖LLM内部状态对扰动的抗性。本文引入了一个新的度量指标——Token Constraint Bound($δ_{ ext{TCB}}$),用于量化LLM在主导下一个token预测显著变化前能承受的最大内部状态扰动。该指标本质上与输出嵌入空间几何相关,为模型内部预测承诺的稳定性提供了洞见。实验表明,$δ_{ ext{TCB}}$与有效的提示工程相关,并揭示了在上下文学习和文本生成过程中困惑度未能发现的关键预测不稳定性。$δ_{ ext{TCB}}$提供了一种原理性的补充方法,用于分析并潜在提升LLM预测的上下文稳定性。
LLM
推理稳定性
内部状态扰动
度量指标
上下文学习
论文聚焦于LLM的推理稳定性,提出新指标衡量其对输入扰动的鲁棒性,直接关联推理能力。
分享
夯
0
拉
0
VulReaD: Knowledge-Graph-guided Software Vulnerability Reasoning and Detection
Samal Mukhtar, Yinghua Yao, Zhu Sun, Mustafa Mustafa, Yew Soon Ong et al.
英国曼彻斯特大学计算机科学学院
新加坡科技设计大学科学技术与研究学院
阿联酋阿布扎比大学人工智能学院
软件漏洞检测(SVD)是现代系统中的关键挑战。尽管大语言模型(LLMs)能够提供自然语言解释,但现有工作多集中在二分类评估上,且解释常缺乏与常见弱点枚举(CWE)类别的语义一致性。本文提出VulReaD,一种基于知识图谱的漏洞推理与检测方法,超越了传统的二分类,实现CWE级别的推理。该方法利用安全知识图谱作为语义骨架,并通过一个强大的教师LLM生成符合CWE的对比推理监督信号,从而在无需人工标注的情况下训练学生模型。学生模型通过奇数比偏好优化(ORPO)进行微调,以促进分类一致的推理并抑制不支持的解释。实验结果表明,在三个真实数据集上,VulReaD相比最先进的基线方法,在二分类F1指标上提升了8-10%,在多分类任务中分别提升了30%的Macro-F1和18%的Micro-F1。结果还显示,LLMs在二分类检测中优于深度学习基线,而知识图谱引导的推理增强了CWE覆盖范围和可解释性。
软件漏洞检测
知识图谱
推理能力
CWE分类
LLM监督学习
论文聚焦于基于知识图谱的漏洞推理与检测,强调CWE级别的语义推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling
Alaa Elsetohy, Sama Hadhoud, Haryo Akbarianto Wibowo, Chenxi Whitehouse, Genta Indra Winata et al.
中国科学院
阿联酋大学
Meta公司
Capital One公司
多语言基准测试很少针对文化背景下的前提进行推理测试:翻译数据集保留了以英语为中心的场景,而以文化为中心的数据集通常缺乏对所需推理的控制。我们提出了Macaron,一个以模板为核心的基准测试,能够在不同语言的问题中分解推理类型和文化因素。利用100个与语言无关的模板,涵盖7种推理类型和22种文化方面,本地标注者创建了与情景一致的英文和本地语言的多项选择题,并系统地推导出真假判断题。Macaron包含11,862个实例,覆盖20个国家/文化背景、10种文字和20种语言(包括阿姆哈拉语、约鲁巴语、祖鲁语、吉尔吉斯语等低资源语言以及一些阿拉伯方言)。在对21个多语言LLM的零样本评估中,推理模式模型表现最强,且英语与本地语言性能接近,而开源权重模型在本地语言中性能显著下降,在真假任务中常接近随机水平。文化相关的数学和计数模板始终最难。数据可通过此链接访问:https://huggingface.co/datasets/AlaaAhmed2444/Macaron。
多语言推理
文化感知
基准测试
LLM评估
模板填充
论文聚焦于多语言、多文化背景下的推理能力评估,设计了基于模板的基准测试,直接涉及LLM的推理机制。
分享
Code
夯
0
拉
0
MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
Wenjie Li, Yujie Zhang, Haoran Sun, Xingqi He, Hongcheng Gao et al.
中国协和医科大学基础医学院
清华大学
长篇临床视频在基于视觉证据的决策中起着核心作用,尤其在手术机器人等应用中日益重要。然而,当前多模态大语言模型通常采用被动采样或弱关联检查的方式处理视频,限制了其对时间定位证据进行迭代定位、验证和解释的能力。为弥补这一不足,本文提出MedScope,一种用于临床视频推理的工具使用模型,能够在长篇流程中进行粗到细的证据搜索。通过将中间推理与目标工具调用及检索观察的验证相结合,MedScope生成更准确且可信的预测,并明确基于时间定位的视觉证据。为解决高保真监督数据的缺乏,我们构建了ClinVideoSuite,一个以证据为中心的细粒度临床视频数据集。随后,我们使用基于定位对齐奖励和证据加权优势的Grounding-Aware Group Relative Policy Optimization(GA-GRPO)优化MedScope,直接强化工具使用。在完整和细粒度视频理解基准测试中,MedScope在领域内和领域外评估中均达到最先进水平。该方法为能够真正‘以视频思考’的医疗AI代理提供了路径。
临床推理
视频理解
工具调用
医学AI
多模态学习
论文聚焦于通过工具调用实现临床视频中的推理,强调基于视频证据的推理过程。
分享
夯
0
拉
0
To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks
Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu et al.
美国亚利桑那州立大学
心智理论(ToM)评估模型是否能够推断隐藏的心理状态,如信念、欲望和意图,这对自然社交互动至关重要。尽管大型推理模型(LRMs)在数学和编程中的逐步推理方面取得了进展,但其在社会认知技能中的迁移效果仍不明确。本文系统研究了九种先进的大型语言模型(LLMs),比较了推理模型与非推理模型在三个代表性ToM基准上的表现。结果表明,推理模型并不总是优于非推理模型,有时甚至表现更差。细致分析揭示了三个关键发现:首先,慢思考会导致准确率下降;其次,适度且自适应的推理有助于提升性能;第三,模型依赖选项匹配而非真正的推理。本文还设计了两种干预方法以验证并缓解这些问题。研究表明,LRMs在形式推理方面的进步无法完全迁移到ToM任务中,实现稳健的心智理论需要超越现有推理方法的独特能力。
心智理论
推理模型
选项匹配
自适应推理
社会认知
论文聚焦于推理模型在心智理论任务中的表现,探讨其推理机制与局限性,属于推理能力的核心研究。
分享
夯
0
拉
0
Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation
Guangjing Yang, ZhangYuan Yu, Ziyuan Qin, Xinyuan Song, Huahui Yi et al.
北京邮电大学
Emory University
清华大学
尽管最近在强化微调(RFT)方面的进展表明基于规则的奖励方案可以有效实现大语言模型的后训练,但其在跨模态、以视觉为中心的领域中的扩展仍鲜有研究。这一限制在医学影像领域尤为明显,因为有效性能需要稳健的视觉感知和结构化推理。本文提出VRFT-Aug,一种针对医学领域的视觉强化微调框架。VRFT-Aug引入了一系列训练策略,旨在增强感知和推理能力,包括先验知识注入、感知驱动的策略优化、医学指导的奖励塑造以及行为模仿。通过在多个医学数据集上的广泛实验,我们证明我们的方法在标准监督微调和RFT基线方法上表现更优。此外,我们提供了基于实证的见解和实用训练启发式方法,这些方法可推广到其他医学图像任务中。我们希望本工作为开发可靠且具备推理能力的高风险医学应用模型提供可行的指导和新的灵感。
视觉强化学习
医学影像
推理增强
模型微调
论文重点研究了通过增强感知和推理能力来改进视觉强化微调,直接涉及推理机制的优化。
分享
夯
0
拉
0
APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL
Bowen Cao, Weibin Liao, Yushi Sun, Dong Fang, Haitao Li et al.
香港大学
北京大学
香港中文大学
深圳大学
基于大语言模型的文本到SQL系统在学术基准上表现出色,但在复杂的实际企业环境中表现不佳。其主要限制在于依赖静态模式表示,难以解决语义歧义并扩展至大型复杂数据库。为此,我们提出了APEX-SQL,一种基于代理的文本到SQL框架,将范式从被动翻译转向主动探索。该框架采用假设验证循环,使模型推理基于真实数据。在模式链接阶段,使用逻辑规划生成假设,双路径剪枝减少搜索空间,并行数据分析验证列角色,最后进行全局综合以确保拓扑连通性。在SQL生成过程中,引入确定性机制检索探索指令,使代理有效探索数据分布、优化假设并生成语义准确的SQL。实验表明,APEX-SQL在BIRD和Spider 2.0-Snow数据集上的执行准确率分别达到70.65%和51.01%,优于现有基线方法,且减少了token消耗。进一步分析表明,代理探索作为性能增强手段,释放了基础模型在企业环境中的潜在推理能力。
Text-to-SQL
Agentic Exploration
Reasoning Enhancement
Schema Linking
Data Profiling
论文核心聚焦于通过代理探索提升LLM的推理能力,解决语义模糊和复杂数据库问题。
分享
夯
0
拉
0
LLM-Based Scientific Equation Discovery via Physics-Informed Token-Regularized Policy Optimization
Boxiao Wang, Kai Li, Tianyi Liu, Chen Li, Junzhe Wang et al.
中国科学院自动化研究所
北京,中国
航天科技集团第五研究院总体部
中国空气动力研究与发展中心
符号回归旨在从观测数据中提炼数学方程。近期方法成功利用大语言模型(LLMs)生成方程假设,借助其丰富的预训练科学先验知识。然而,现有框架主要将LLM视为静态生成器,依赖提示级别的指导来引导探索,无法根据搜索反馈更新模型内部表示,常导致物理不一致或数学冗余的表达式。本文提出PiT-PO(物理信息化标记正则化策略优化),一个统一框架,通过强化学习将LLM进化为自适应生成器。PiT-PO的核心是双重约束机制,严格确保分层物理有效性,同时应用细粒度、标记级别的惩罚以抑制冗余结构。因此,PiT-PO使LLM能够生成既科学一致又结构简洁的方程。实证表明,PiT-PO在标准基准上达到最先进水平,并成功发现具有挑战性的流体力学问题的新湍流模型。我们还证明,PiT-PO使小型模型能够超越封闭源代码的大模型,实现高性能科学发现的民主化。
科学方程发现
强化学习
物理信息化
符号回归
LLM优化
论文聚焦于LLM在科学方程发现中的推理能力提升,通过强化学习优化生成过程。
分享
夯
0
拉
0
LHAW: Controllable Underspecification for Long-Horizon Tasks
George Pu, Michael S. Lee, Udari Madhushani Sehwag, David J. Lee, Bryan Zhu et al.
Scale AI
长期工作流代理对于真正自主系统的实现至关重要。其可靠执行依赖于在模糊情境下进行推理并寻求澄清的能力。然而,目前缺乏可扩展且与任务无关的框架来系统地整理和衡量模糊性对自定义工作流的影响。本文提出LHAW(长期增强型工作流),一种模块化、数据集无关的合成流程,通过系统地从目标、约束、输入和上下文四个维度移除信息,将任何明确指定的任务转化为可控的模糊变体。与依赖LLM预测模糊性的方法不同,LHAW通过实证代理试验验证变体,并根据终端状态差异将其分类为关键性、发散性或良性。我们发布了285个任务变体,并进行了正式分析,测量当前代理在模糊环境下的检测、推理和解决模糊性能力。LHAW提供了首个针对长期场景中代理澄清行为的成本敏感评估框架,有助于开发可靠的自主系统。
长期任务
模糊性处理
代理推理
任务变体生成
论文聚焦于Agent在长期任务中处理模糊性问题的推理能力,提出系统化评估框架。
分享
夯
0
拉
0
Neuro-Symbolic Synergy for Interactive World Modeling
Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi Zhou
澳大利亚国立大学工程学院
澳大利亚国立大学信息技术学院
麻省理工学院计算机科学与人工智能实验室
大型语言模型(LLMs)展现出强大的通用推理能力,但在作为世界模型(WMs)使用时,常常会产生幻觉,尤其是在需要严格遵循确定性转换规则的边缘情况下。相比之下,符号世界模型虽然具有逻辑一致性,但缺乏语义表达能力。为弥合这一差距,本文提出了一种名为Neuro-Symbolic Synergy(NeSyS)的框架,该框架将LLMs的概率语义先验与可执行的符号规则相结合,以实现表达能力和鲁棒性的统一。NeSyS通过交替训练两个模型,并利用对方无法充分解释的轨迹进行优化。与基于规则的提示方法不同,符号世界模型直接通过修改LLM的输出概率分布来约束其行为。神经世界模型仅在未被符号规则覆盖的轨迹上进行微调,从而减少了50%的训练数据,同时保持了准确性。在ScienceWorld、Webshop和Plancraft三个不同的交互环境中进行的大量实验表明,NeSyS在世界模型预测准确性和数据效率方面均优于基线方法。
world modeling
neuro-symbolic
reasoning
llm
symbolic reasoning
论文聚焦于LLM的推理能力与世界模型的结合,强调逻辑一致性与语义表达的融合。
分享
夯
0
拉
0
Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge
Jesse Barkley, Abraham George, Amir Barati Farimani
卡内基梅隆大学工程学院
在动态军事环境中部署自主边缘机器人受到领域特定训练数据稀缺和边缘硬件计算能力限制的制约。本文提出了一种分层的零样本框架,将轻量级目标检测与紧凑型视觉-语言模型(VLM)相结合,使用Qwen和Gemma系列模型(4B-12B参数)。Grounding DINO作为高召回率、文本提示的区域提议器,将高置信度检测结果传递给边缘类VLM进行语义验证。我们在 Battlefield 6 的55个高保真合成视频上评估该流程,在三个任务中分别达到最高100%的误报过滤准确率、97.5%的损伤评估准确率以及55%-90%的细粒度车辆分类准确率。我们进一步扩展该流程为一个代理式的Scout-Commander工作流,实现100%正确的资产部署和9.8/10的推理得分(由GPT-4o评分),延迟低于75秒。一种新的“受控输入”方法解耦感知与推理,揭示了不同的故障表型:Gemma3-12B在战术逻辑上表现优异但在视觉感知上失败,而Gemma3-4B即使输入准确也会出现推理崩溃。这些发现验证了分层零样本架构在边缘自主性中的有效性,并提供了一个用于认证VLM在安全关键应用中适用性的诊断框架。
边缘计算
视觉-语言模型
零样本推理
战术决策
自主机器人
论文重点研究了基于VLM的战术推理与语义验证,涉及零样本推理和边缘计算中的逻辑判断。
分享
夯
0
拉
0
Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality
Zhimin Hu, Riya Roshan, Sashank Varma
Georgia Tech
人类的推理受到资源理性的塑造,即在约束条件下优化性能。最近,推理时扩展成为提升大语言模型(LLM)推理性能的一种强大范式,通过增加测试时计算量来实现。具体而言,指令微调(IT)模型在推理过程中显式生成长推理步骤,而大型推理模型(LRMs)则通过强化学习训练以发现最大化准确率的推理路径。然而,尚不清楚在没有与计算成本相关的显式奖励的情况下,资源理性是否能够从这种扩展中自然产生。本文引入了一个变量归因任务,要求模型根据候选变量、输入-输出试验和预定义逻辑函数推断哪些变量决定了结果。通过调整候选变量数量和试验数量,系统地操控任务复杂度。两种模型均表现出随着复杂度增加,从暴力搜索策略向分析策略的转变。IT模型在XOR和XNOR函数上表现下降,而LRMs保持稳健。这些发现表明,即使没有基于成本的显式奖励,模型也能根据任务复杂度调整推理行为,为资源理性是推理时扩展本身所固有的属性提供了有力证据。
resource rationality
reasoning strategies
inference-time scaling
large language models
论文聚焦于语言模型的推理能力,探讨其在不同任务复杂度下的策略调整与资源理性。
分享
夯
0
拉
0
On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models
Polina Tsvilodub, Jan-Felix Klumpp, Amir Mohammadpour, Jennifer Hu, Michael Franke
Department of Linguistics, University of Tübingen
Department of Cognitive Science, Johns Hopkins University
本文探讨了语言模型(LMs)是否利用共享的计算机制来处理一般性的心智理论(ToM)和语言特定的实用推理,以回答语言模型是否可能具有‘社会世界模型’这一问题。通过行为评估和因果机制实验,结合认知神经科学启发的功能定位方法,分析了LMs在七个心智理论子类别上的表现。严格的假设驱动统计测试结果表明,语言模型可能发展出相互关联的‘社会世界模型’,而非孤立的能力。本研究贡献了新的心智理论定位数据、功能定位技术的方法改进,并提供了关于人工系统中社会认知涌现的实证见解。
心智理论
实用推理
功能整合
语言模型
社会认知
论文聚焦语言模型在心智理论和实用推理中的功能整合,属于推理能力的核心研究。
分享
夯
0
拉
0
MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation
Yongyue Zhang, Yaxiong Wu
Singapore
理解和处理包含段落、图表和表格等多模态块的长上下文多模态文档具有挑战性,主要由于跨模态异质性和跨页推理需求。为解决这些问题,本文提出了一种以查询为中心的框架MLDocRAG,通过构建多模态块-查询图(MCQG)来组织文档内容,该图基于细粒度查询将不同模态和页面的信息进行关联。该方法实现了选择性检索和结构化证据聚合,从而提升了多模态长上下文问答任务中的准确性和连贯性。实验表明,MLDocRAG在MMLongBench-Doc和LongDocURL数据集上显著提升了检索质量和答案准确性。
多模态理解
长上下文推理
文档检索增强生成
跨模态信息整合
论文聚焦于多模态长文理解中的跨模态与跨页推理问题,提出基于查询的结构化方法提升推理能力。
分享
夯
0
拉
0
KORAL: Knowledge Graph Guided LLM Reasoning for SSD Operational Analysis
Mayur Akewar, Sandeep Madireddy, Dongsheng Luo, Janki Bhimani
Florida International University, Miami, FL, USA
Argonne National Laboratory, Lemont, IL, USA
固态硬盘(SSDs)在数据中心、消费平台和关键任务系统中至关重要。然而,由于数据碎片化且时间不连续,现有方法需要大量数据集和专家输入,但提供的洞察有限。KORAL是一个由知识驱动的推理框架,将大语言模型(LLMs)与结构化的知识图谱(KG)相结合,以生成对SSD运行的见解。该方法从碎片化的遥测数据生成数据知识图谱,并整合已组织的文献知识图谱,从而将非结构化来源转化为可查询的图谱,并将遥测数据转化为结构化知识。两个图谱共同引导LLM提供基于证据、可解释的分析,符合领域术语和约束条件。使用真实生产跟踪的评估表明,KORAL能够实现专家级诊断和建议,并通过有根据的解释提高推理透明度,指导操作决策,减少人工工作量,并提供改进服务质量的可行见解。据我们所知,这是首个结合LLMs和KGs的端到端系统,用于全频谱SSD推理,包括描述性、预测性、规范性和假设性分析。
知识图谱
LLM推理
SSD分析
可解释性AI
存储系统
论文核心围绕LLM与知识图谱结合进行SSD操作分析,强调推理能力与可解释性。
分享
Code
夯
0
拉
0
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens
Weihao Liu, Dehai Min, Lu Cheng
美国伊利诺伊大学芝加哥分校计算机科学系
尽管显式的思维链(CoT)赋予了大语言模型(LLMs)强大的推理能力,但它要求模型在文本标记中表达每一个中间步骤,从而将模型的思考限制在离散的词汇空间中。最近,连续潜在空间中的推理作为一种有前途的替代方案出现,使推理和计算超越了离散标记的限制,更加稳健和灵活。然而,当前的潜在推理范式常常受到特征坍缩和不稳定的影响,这源于在递归使用隐藏状态作为输入嵌入时的分布不匹配问题,或依赖辅助模型时的对齐问题。为了解决这些问题,我们提出了潜在思维调优(LT-Tuning),一种重新定义潜在思维构建和部署方式的框架。我们的方法不再仅仅依赖于原始的隐藏状态,而是引入了一个上下文-预测-融合机制,联合利用上下文隐藏状态和来自词汇嵌入空间的预测语义指导。结合渐进的三阶段课程学习流程,LT-Tuning还能够动态切换潜在和显式思考模式。实验表明,我们的方法优于现有的潜在推理基线,在有效缓解特征坍塌的同时实现了稳健的推理精度。
Chain-of-Thought
潜在空间推理
隐式思维
课程学习
推理优化
论文聚焦于提升LLM的推理能力,提出新的隐空间推理框架,直接针对推理机制进行改进。
分享
Code
夯
0
拉
0
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang et al.
中国科学院大学
可验证奖励强化学习(RLVR)已被证明是提升大语言模型(LLMs)推理能力的有效方法。然而,RLVR面临元学习瓶颈:缺乏人类学习循环中固有的错误归因和经验内化机制,从而限制了细粒度信用分配和可重用知识的形成。本文提出一种名为元经验学习(MEL)的新框架,将自蒸馏获得的元经验整合到模型的参数化记忆中。基于标准RLVR,我们引入了一种设计,利用LLM的自我验证能力对正确和错误轨迹进行对比分析,识别推理错误的具体分叉点,并将其总结为可推广的元经验。通过最小化负对数似然,将元经验内化到LLM的参数化记忆中,从而生成一种语言建模奖励信号,连接正确与错误推理轨迹并促进有效知识复用。实验结果表明,MEL在多个基准测试中均取得一致改进,在不同模型规模下Pass@1指标提升了3.92%至4.73%。
强化学习
元经验
推理能力
语言模型优化
论文聚焦于提升LLM的推理能力,通过引入元经验学习机制增强其错误归因与知识复用。
分享
夯
0
拉
0
Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing
Mohamed Afane, Kayla Laufer, Wenqi Wei, Ying Mao, Junaid Farooq et al.
Fordham University, New York, New York, USA
University of Michigan-Dearborn, Dearborn, Michigan, USA
Stevens Institute of Technology, Hoboken, New Jersey, USA
语言模型已成为量子计算教育和研究的实用工具,从总结技术论文到解释理论概念以及回答该领域最新进展的问题。尽管现有基准测试了量子代码生成和电路设计,但对量子计算概念的理解尚未系统评估。Quantum-Audit通过2700个问题填补了这一空白,涵盖核心量子计算主题。我们评估了来自领先机构的26个模型。该基准包含1000个专家编写的问题、1000个通过LLM从研究论文中提取并由专家验证的问题,以及额外的700个问题,包括350个开放式问题和350个包含错误前提的问题,以测试模型是否能纠正错误假设。人类参与者的得分在23%至86%之间,专家平均得分为74%。表现最佳的模型超过了专家平均水平,Claude Opus 4.5达到84%的准确率,但顶级模型在专家编写的问题上平均准确率下降了12个百分点。在高级主题上的表现进一步下降,在安全问题上降至73%。此外,模型经常接受并强化问题中嵌入的错误前提,而非识别它们,在这些关键推理任务中的准确率低于66%。
量子计算
推理评估
LLM基准测试
错误前提检测
论文重点评估了LLM在量子计算概念理解上的推理能力,涉及逻辑判断与错误前提识别。
分享
夯
0
拉
0
Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin
巴黎萨克雷大学理工学院, 法国
萨里大学, 英国
大型语言模型(LLMs)在生成链式推理(Chain-of-Thought, CoT)时往往产生冗余内容,增加了计算成本和延迟,而性能提升有限。本文提出了一种基于强化学习的细粒度组策略优化算法(FGO),通过细分组响应并根据长度和熵分配适当权重,实现有效的CoT压缩。同时,作为Group Relative Policy Optimization(GRPO)的增强变体,FGO成功解决了GRPO的两个主要限制:数据利用效率低和熵崩溃问题。我们在多个推理任务上的实验表明,FGO能够在不降低性能的前提下实现高效的CoT压缩,并有效解决GRPO的关键局限。
Chain-of-Thought
Reinforcement Learning
Reasoning Compression
GRPO
论文聚焦于Chain-of-Thought(CoT)推理的压缩优化,直接关联LLM的推理能力提升。
分享
夯
0
拉
0
Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection
Changjiang Jiang, Xinkuan Sha, Fengchang Yu, Jingjing Liu, Jian Liu et al.
武汉大学
AntGroup
近期研究表明,在检测过程中引入思维链(Chain-of-Thought, CoT)推理可以增强模型检测合成图像的能力。然而,过长的推理过程会带来显著的资源开销,包括token消耗和延迟,尤其在处理明显伪造的图像时显得冗余。为了解决这一问题,本文提出Fake-HR1,一种大规模混合推理模型,据我们所知,这是首个能够根据生成检测任务的特征自适应判断是否需要进行推理的模型。为此,我们设计了一个两阶段训练框架:首先进行混合微调(Hybrid Fine-Tuning, HFT)以实现冷启动初始化,随后通过混合推理分组策略优化(Hybrid-Reasoning Grouped Policy Optimization, HGRPO)进行在线强化学习,隐式学习何时选择合适的推理模式。实验结果表明,Fake-HR1能够在不同类型的问题中自适应地进行推理,在推理能力和生成检测性能方面均优于现有大语言模型,同时显著提升了响应效率。
合成图像检测
思维链推理
混合推理模型
自适应推理
视觉语言模型
论文核心围绕Chain-of-Thought(CoT)推理机制展开,提出自适应推理模型Fake-HR1。
分享
夯
0
拉
0
Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
Wenxuan Xie, Yujia Wang, Xin Tan, Chaochao Lu, Xia Hu et al.
上海人工智能实验室, 上海, 中国
同济大学, 上海, 中国
将大量动态知识整合到大型语言模型(LLMs)中仍是一个重大挑战,因为事实数据和推理模式之间存在固有的纠缠。现有的解决方案,从非参数检索增强生成(RAG)到参数化知识编辑,通常受到有限上下文窗口、检索器噪声或灾难性遗忘风险的限制。本文提出DRIFT,一种新颖的双模型架构,旨在显式地将知识提取与推理过程解耦。不同于静态提示压缩,DRIFT使用轻量级知识模型根据查询动态压缩文档片段为隐式事实标记。这些密集表示被投影到推理模型的嵌入空间中,以替换原始冗余文本,同时保持推理准确性。大量实验表明,DRIFT在长上下文任务上显著提升了性能,在可比规模模型中优于强基线。我们的方法为扩展LLMs的有效上下文窗口和推理能力提供了一种可扩展且高效的范式。
长上下文推理
隐式事实标记
双模型架构
知识压缩
高效推理
论文聚焦于推理能力,提出了一种解耦知识提取与推理过程的框架,显著提升长上下文任务性能。
分享
Code
夯
0
拉
0
ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
Qingnan Ren, Shiting Huang, Zhen Fang, Zehui Chen, Lin Chen et al.
中国科学院大学
上海AI实验室
强化学习已成为开发复杂任务推理模型的核心技术,从数学问题求解到想象推理。这些模型的优化通常依赖于策略梯度方法,其效果取决于优势函数的准确估计。然而,现有方法通常采用静态优势估计,忽视了训练样本随时间变化的动态效用,导致信用分配效率低下,进而引发策略更新次优、收敛速度慢和学习不稳定等问题。为解决这一问题,本文提出ADORA(基于在线回滚适应的优势动态),一种新颖的策略优化框架。ADORA通过在线模型回滚过程中动态调整优势函数权重,将训练数据分类为临时有利或不利样本,从而实现更高效的策略更新。广泛的实验表明,ADORA在不同模型家族和数据规模下均表现出鲁棒性和高效性,显著提升了几何和数学任务中的长推理能力,且无需敏感的超参数调优。
强化学习
策略优化
动态优势估计
推理模型
在线回滚
论文聚焦于强化学习中推理模型的训练,提出动态优势估计方法以提升推理能力。
分享
夯
0
拉
0
Discovering High Level Patterns from Simulation Traces
Sean Memery, Kartic Subr
University of Edinburgh, United Kingdom
嵌入在基于物理交互环境中的人工智能代理面临诸多挑战,包括推理、规划、总结和问答。当人类用户希望以自然语言指导或与代理交互时,这一问题更加复杂。尽管语言模型(LMs)是默认选择,但它们在涉及物理的任务上表现不佳。LM的物理推理能力是从观察数据中学习的,而非基于模拟。通常的做法是将模拟轨迹作为上下文,但由于模拟轨迹包含大量细粒度数值和语义数据,这种方法扩展性较差。本文提出了一种自然语言引导的方法,从详细的模拟日志中发现粗粒度模式(如'刚体碰撞'、'稳定支撑'等)。具体而言,我们合成在模拟日志上运行的程序,并将其映射到一系列高层激活模式。通过两个物理基准测试,我们表明这种对模拟日志的注释表示更有利于对物理系统的自然语言推理。我们展示了该方法如何使LM根据自然语言指定的目标生成有效的奖励程序,这些程序可用于规划或监督学习的上下文中。
物理推理
自然语言处理
模拟日志分析
模式识别
论文聚焦于通过自然语言引导发现物理模拟中的高层次模式,直接提升LLM的物理推理能力。
分享
夯
0
拉
0
ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning
Shuaiyi Nie, Siyu Ding, Wenyuan Zhang, Linhao Yu, Tianmeng Yang et al.
中国科学院大学网络空间安全学院
通过强化学习和可验证奖励训练的大规模推理模型在复杂推理任务中表现出色,但往往存在过度思考的问题,生成冗余推理步骤而无性能提升。现有的轨迹级长度惩罚方法难以有效缩短推理长度且会降低准确性,因为它们对所有推理步骤一视同仁,缺乏区分冗余与必要步骤的细粒度信号。同时,过程监督方法通常资源消耗大且存在信用分配不准确的问题。为解决这些问题,本文提出ATTNPO,一种低开销的过程监督强化学习框架,利用模型内在的注意力信号进行步骤级信用分配。首先识别出一组特殊的注意力头,这些注意力头自然关注关键步骤并抑制冗余步骤。通过利用这些注意力头的得分,采用两种子策略减少冗余步骤,同时通过减轻关键步骤的惩罚来保持准确性。实验结果表明,ATTNPO显著减少了推理长度,并在9个基准测试中显著提升了性能。
强化学习
注意力机制
推理优化
过程监督
冗余消除
论文聚焦于提升LLM的推理效率与性能,直接针对推理过程中的冗余问题进行优化。
分享
夯
0
拉
0
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations
William Lugoloobi, Thomas Foster, William Bankes, Chris Russell
牛津大学佛兰克林学院
牛津大学计算机科学系
在对每个问题进行扩展推理时运行大型语言模型(LLMs)是昂贵的,但确定哪些输入实际上需要额外计算仍具有挑战性。本文研究是否可以从生成前的内部表示中恢复模型自身的成功概率,并探讨这一信号是否能指导更高效的推理过程。我们通过训练线性探针,在生成前的激活状态上预测数学和编程任务中的策略特定成功情况,显著优于表面特征如问题长度和TF-IDF。使用E2H-AMC数据集,该数据集提供了相同问题的人类和模型表现,我们展示了模型编码了一个与人类难度不同的模型特定难度概念,并且这种差异随着扩展推理而增加。利用这些探针,我们证明了跨模型池路由查询可以在减少推理成本高达70%的同时超越最佳模型的表现,表明即使模型的内部表示与人类对难度的直觉不同,也能实现实际效率提升。
推理能力
模型效率
内部表示
任务难度预测
论文聚焦于LLM在推理任务中的内部表示与成功预测,直接关联到推理能力的研究。
分享
Code
夯
0
拉
0
LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse
Bakhtawar Ahtisham, Kirk Vanacore, Zhuqian Zhou, Jinsook Lee, Rene F. Kizilcec
科尔盖大学
随着大语言模型(LLMs)在大规模教育对话分析中的应用日益广泛,当前流程缺乏可靠的方法来检测模型何时出错。本文研究是否可以通过LLM生成的推理来预测其自身预测的正确性。我们分析了30,300条课堂对话中的教师发言,每条发言均被多个最先进的LLMs标注为教学行为类型并附带推理过程。通过人工验证的真实标签,我们将任务定义为预测模型对特定发言的标注是否正确。使用TF-IDF编码LLM推理,并评估五种监督分类器。随机森林分类器达到F1分数0.83(召回率0.854),成功识别大部分错误预测并优于基线方法。针对特定教学行为构建专门检测器进一步提升了性能,表明错误检测受益于特定结构的语言线索。利用LIWC框架分析四个正确性语言标记:因果、区分、不确定性及洞察力。正确预测表现出基于因果的语言(如because、therefore),而错误推理更可能依赖认识论上的模糊表达(如might、could)和表现性元认知(如think、realize)。句法复杂度无法区分正确与错误推理,较长的推理并不更可靠。这些发现表明,基于推理的错误检测为自动化教育对话分析的质量控制提供了一种实用且可扩展的方法。
LLM推理
错误检测
教育对话分析
语言特征分析
分类器评估
论文聚焦于LLM推理能力的正确性检测,分析推理内容的语言特征与预测准确性之间的关系。
分享
夯
0
拉
0
Decomposing Reasoning Efficiency in Large Language Models
Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud
挪威-集成 - 挪威大学
训练用于推理的大语言模型在推理令牌使用和准确性之间存在权衡,但标准评估仅报告最终准确性,掩盖了令牌的使用或浪费情况。本文提出了一种可选追踪框架,将令牌效率分解为可解释的因素:在固定令牌预算下的完成度(避免截断)、完成条件下的正确性以及冗长性(令牌使用)。当基准元数据提供每个实例的工作负载代理时,进一步将冗长性分解为两个部分:平均表述开销(每工作单元的令牌数)和一个耦合系数,该系数捕捉开销如何随任务工作量变化。当有推理追踪时,还加入了确定性的追踪质量指标(如基础性、重复性、提示复制),以区分退化的循环推理与冗长但参与的推理,避免人工标注和LLM评判。在CogniLoad上对25个模型进行评估,发现准确性和令牌效率排名存在分歧(Spearman $ρ=0.63$),效率差距通常由条件正确性驱动,而表述开销因任务不同而变化约9倍(与模型规模关系较弱)。该分解揭示了不同的瓶颈特征,表明需要不同的效率干预措施。
推理效率
令牌使用分析
模型评估
推理追踪
论文聚焦于LLM的推理效率分解,直接涉及推理能力的核心机制与评估。
分享
夯
0
拉
0
MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering
Sieun Hyeon, Jusang Oh, Sunghwan Steve Cho, Jaeyoung Do
韩国电气工程系
人工智能学院,首尔国立大学
近年来,大型语言模型(LLMs)在表格理解任务如表格问答(TableQA)方面取得了显著进展,但在资源受限或隐私敏感环境中仍面临可靠性、可扩展性和效率方面的挑战。本文提出MATA,一种基于多智能体的表格问答框架,利用多个互补的推理路径和由小型语言模型构建的一组工具。MATA通过多样化的推理风格为给定表格和问题生成候选答案,并借助这些工具进行优化或选择最佳答案。此外,它引入了一种算法以减少昂贵的LLM代理调用,从而提高整体效率。MATA在使用小型开源模型时仍能保持强大性能,并能适应各种LLM类型。在两个不同难度基准上使用十种不同的LLM进行的广泛实验表明,MATA在避免过度LLM推理的同时实现了最先进的准确率和高效推理。结果表明,精心协调的多路径推理方法能够实现可扩展且可靠的表格问答。
多智能体系统
表格问答
推理路径
小模型工具
高效推理
论文核心围绕多路径推理机制提升表格问答的可靠性与效率,属于推理能力研究。
分享
Code
夯
0
拉
0
Agentic Spatio-Temporal Grounding via Collaborative Reasoning
Heng Zhao, Yew-Soon Ong, Joey Tianyi Zhou
CFAR, IHPC, Agency for Science, Technology and Research(ASTAR), Singapore
CCDS, Nanyang Technological University, Singapore
时空视频定位(STVG)旨在根据文本查询在视频中检索目标对象或人物的时空区域。现有方法通常在预测的时间范围内逐帧进行空间定位,导致计算冗余、监督需求高且泛化能力有限。弱监督方法虽减少标注成本,但受限于数据集级别的训练范式,性能较差。为解决这些问题,本文提出一种面向开放世界和无训练场景的智能体时空定位框架(ASTG)。该框架利用多模态大语言模型构建两个专门的智能体:空间推理代理(SRA)和时间推理代理(TRA),以自主、自导的方式协作完成目标区域的检索。ASTG采用“提出-评估”范式,解耦时空推理过程,并自动化完成区域提取、验证和时间定位。借助专用视觉记忆和对话上下文,显著提升了检索效率。实验表明,该方法在主流基准测试中优于现有的弱监督和零样本方法,并可与部分全监督方法相媲美。
时空定位
多模态LLM
智能体协作
推理代理
弱监督学习
论文核心围绕空间-时间推理,提出两个专门的推理代理进行自主协作推理。
分享
夯
0
拉
0
Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning
Qiao Liang, Yuke Zhu, Chao Ge, Lei Yang, Ying Shen et al.
MYbank, Ant Group, China
工具集成推理(TIR)使LLM代理能够通过规划、工具使用和迭代修正来解决任务,但在这种设置下基于结果的强化学习面临稀疏、延迟奖励和弱步骤级信用分配的问题。在长跨度的TIR轨迹中,早期不可恢复的错误可能决定任务成败,因此需要定位第一个不可恢复步骤并利用其进行细粒度信用分配。本文提出错误定位策略优化(ELPO),通过固定展开预算下的二分查找展开树定位第一个不可恢复步骤,通过层次优势归因将树结构转化为稳定的训练信号,并应用错误定位自适应裁剪以增强对关键步骤及其后续部分的校正更新。在数学、科学问答和代码执行等TIR基准测试中,ELPO在可比采样预算下始终优于强代理RL基线,在Pass@K和Major@K扩展、展开排名质量和工具调用效率方面均有额外提升。
tool-integrated reasoning
error localization
policy optimization
credit assignment
论文聚焦于LLM在工具集成推理中的错误定位与策略优化,直接提升其推理能力。
分享
夯
0
拉
0
On the Optimal Reasoning Length for RL-Trained Language Models
Daisuke Nohara, Taishi Nakamura, Rio Yokota
日本科学研究所
强化学习显著提升了大语言模型的推理能力,但也倾向于延长思维链输出并增加训练和推理阶段的计算成本。尽管已有长度控制方法被提出,但最佳输出长度以平衡效率与性能仍不清楚。在本研究中,我们在两个模型Qwen3-1.7B Base和DeepSeek-R1-Distill-Qwen-1.5B上比较了多种长度控制方法。结果表明,长度惩罚可能会阻碍推理能力的获取,而适当调整的长度控制可以提升具有强先验推理能力模型的效率。通过将先前工作扩展到强化学习训练的策略中,我们识别出两种失效模式:1)长输出会增加分散性;2)短输出会导致思考不足。
强化学习
推理长度
思维链
效率优化
论文聚焦于强化学习训练的语言模型的推理长度优化,直接涉及推理能力的核心问题。
分享
夯
0
拉
0
Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models
Sangwon Yu, Ik-hwan Kim, Donghun Kang, Bongkyu Hwang, Junhwa Choi et al.
韩国国立首尔大学电气与计算机工程系
现代大型语言模型(LLMs)通过使用搜索增强推理,在复杂任务中表现出色,能够将外部知识整合到长链推理中。然而,本文识别出该范式中一个关键但尚未被充分研究的瓶颈,称为知识整合衰减(KID)。具体而言,随着推理链在搜索前变长,模型越来越难以将检索到的证据整合到后续推理步骤中,从而限制了性能,即使相关信息可用。为了解决这一问题,本文提出了一种无需训练的推理时策略——自锚定知识编码(SAKE),旨在稳定知识利用。通过在推理过程的开始和结束处锚定检索到的知识,SAKE防止其被先前上下文所掩盖,从而保持其语义完整性。在多跳问答和复杂推理基准上的大量实验表明,SAKE显著缓解了KID并提升了性能,为代理式LLM中的知识整合提供了一个轻量而有效的解决方案。
知识整合
推理衰减
搜索增强推理
语义完整性
LLM优化
论文聚焦于LLM在推理过程中知识整合的衰减问题,直接涉及推理能力中的知识利用与逻辑链条稳定性。
分享
夯
0
拉
0
Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
Yizhi Wang, Linan Yue, Min-Ling Zhang
东南大学计算机科学与工程学院,东南大学关键软件与信息系统集成(SEU),中国教育部
长链思维(Long CoTs)广泛应用于多模态推理模型中,以捕捉详细的视觉信息来解决复杂任务。然而,这些长链思维通常过于冗长且包含重复的推理步骤,可能影响推理效率。压缩这些长链思维是一个自然的解决方案,但现有方法面临两个主要挑战:(1)移除关键对齐线索可能会损害视觉-文本推理的完整性;(2)压缩过程缺乏可解释性,难以判断哪些信息是关键的。为了解决这些问题,我们提出了XMCC,一种可解释的多模态思维链压缩器,将压缩建模为通过强化学习优化的顺序决策过程。XMCC能够在保持关键推理步骤和答案正确性的前提下有效缩短推理轨迹,并同时生成其压缩决策的自然语言解释。在代表性多模态推理基准上的大量实验表明,XMCC不仅减少了推理长度,还提供了可解释的解释,验证了其有效性。
思维链压缩
可解释性
多模态推理
强化学习
论文聚焦于多模态推理模型中的思维链压缩与可解释性,直接涉及LLM/Agent的推理能力提升。
分享
Code
夯
0
拉
0
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu et al.
北京大学
大型视觉-语言模型(LVLMs)在地理定位任务中表现出较强的推理能力,但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。现有方法受限于内部知识,难以提供可验证的结果。为此,本文提出SpotAgent框架,将地理定位形式化为一种代理推理过程,通过专家级推理将视觉解释与工具辅助验证相结合。SpotAgent利用外部工具(如网络搜索、地图)通过ReAct图谱主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程,包括监督微调(SFT)、基于多智能体框架合成高质量轨迹的代理冷启动阶段以及强化学习优化推理能力。此外,提出了一种空间感知动态过滤策略以提高强化学习阶段的效率。实验表明,SpotAgent在标准基准上达到最先进水平,有效缓解了幻觉问题,实现了精确且可验证的地理定位。
视觉-语言模型
地理定位
代理推理
工具调用
强化学习
论文核心围绕基于代理推理的地理定位,强调推理与工具验证的结合。
分享
夯
0
拉
0
Breaking the Pre-Sampling Barrier: Activation-Informed Difficulty-Aware Self-Consistency
Taewoong Yoon, Geunyeong Jeong, Geon Park, Sihyeong Yeom, Harksoo Kim
韩国国立大学
自一致性(SC)是一种有效的解码策略,通过生成多个思维链推理路径并利用多数投票选择最终答案,从而提升大语言模型(LLMs)的推理性能。然而,该方法因需要大量样本而带来显著的推理成本。为缓解这一问题,难度自适应自一致性(DSC)被提出,通过根据问题难度调整样本数量以减少简单问题的冗余计算。但DSC需要额外的模型调用和预采样来估计难度,导致计算开销较大。本文提出基于激活信息的难度感知自一致性(ACTSC),利用前馈网络神经元激活中的内部难度信号构建轻量级难度估计探针,无需额外的token生成或模型调用。该探针可动态调整SC的样本数量,并适用于新数据集而无需预采样。实验结果表明,ACTSC在保持精度的同时有效降低了推理成本。
推理优化
自一致性
难度估计
激活分析
解码策略
论文聚焦于提升LLM推理性能的解码策略,直接涉及推理能力优化。
分享
夯
0
拉
0
The Critical Horizon: Inspection Design Principles for Multi-Stage Operations and Deep Reasoning
Seyed Morteza Emadi
肯塔基-弗拉格勒商学院,北卡罗来纳大学教堂山分校
制造流程、服务旅程、供应链和AI推理链面临共同挑战:将最终结果归因于导致它的中间阶段。本文从信息论角度建立了一个因果归因问题的理论屏障:连接早期步骤与最终结果的信号随深度呈指数衰减,从而形成一个临界视野,在此之外仅凭终点数据进行可靠学习需要指数级样本。文章证明了四个结论:首先,信号衰减边界表明,将结果归因于早期阶段所需的样本复杂度随中间步骤数量呈指数增长;其次,宽度限制表明并行执行只能提供对数级别的缓解,相关性限制了有效独立样本数量;第三,目标不匹配表明加法奖励聚合在顺序有效性要求所有步骤正确时优化了错误的目标;第四,最优检查设计表明,在均匀信号衰减下,均匀检查点间距是最优的,而在异质衰减下,贪心算法可生成最优非均匀安排。这些结果为操作中的检查设计和AI监督设计提供了统一的分析基础。
因果归因
深度推理
信息论
检查设计
AI监督
论文聚焦于深度推理中的因果归因问题,与LLM/Agent的推理能力密切相关。
分享
夯
0
拉
0
Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
Haoran Xu, Hongyu Wang, Jiaze Li, Shunpeng Chen, Zizhao Tong et al.
浙江大学
小米公司
现有大语言模型在测试时的扩展定律强调通过延长推理长度来激发自反思行为。然而,这种垂直扩展策略在探索过程中常遇到瓶颈,模型容易陷入特定的思维模式。通过从深度转向并行性,平行推理可以缓解探索范围的缩小。然而,将这一范式扩展到视觉领域仍是一个开放的研究问题。本文首先探讨了视觉分割在并行推理中的作用,并提出了两种不同的策略。基于此,我们引入了Visual Para-Thinker,这是首个用于多模态大语言模型的并行推理框架。为保持路径独立性并促进推理多样性,我们的方法结合了Pa-Attention和LPRoPE。利用vLLM框架,我们开发了一个原生的多模态实现,支持高效的并行处理。在V*、CountBench、RefCOCO和HallusionBench等基准数据集上的实验证明,Visual Para-Thinker成功地将并行推理的优势扩展到了视觉领域。
parallel reasoning
visual comprehension
multimodal LLMs
论文聚焦于视觉领域中的并行推理框架,直接涉及LLM的推理能力提升。
分享
夯
0
拉
0
Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan et al.
University of Southern California
多智能体系统(MAS)可以显著扩展大语言模型(LLMs)的推理能力,但大多数框架仍使用多数投票来聚合智能体输出。这种启发式方法忽略了推理轨迹中的证据结构,并在智能体共享相关偏见并收敛于相同错误理由的“虚构共识”情况下表现脆弱。本文引入了AgentAuditor,通过在显式表示智能体轨迹之间一致性和分歧的推理树上进行路径搜索,取代传统的投票机制。AgentAuditor通过比较关键分歧点的推理分支解决冲突,将全局裁决转化为高效的局部验证。此外,本文还提出了反共识偏好优化(ACPO),通过对多数失败案例训练裁决者,并奖励基于证据的少数选择而非流行错误,进一步提升效果。AgentAuditor与MAS设置无关,在5种主流设置中,其准确率比多数投票提高了高达5%,比使用LLM作为裁判提高了3%。
multi-agent
reasoning
verification
LLM
论文聚焦于多智能体系统的推理过程,提出改进推理结果的方法,直接关联推理能力主题。
分享
夯
0
拉
0
FM SO.P: A Progressive Task Mixture Framework with Automatic Evaluation for Cross-Domain SOP Understanding
Siyuan Huang, Ziyu Wang, Chao Pan, Han Zhao
Amazon
Johns Hopkins University
University of Illinois Urbana-Champaign
标准操作程序(SOPs)对企业运营至关重要,但现有语言模型在SOP理解和跨领域泛化方面存在困难。当前方法未能区分SOP所需的推理能力:术语精确性、顺序排序和约束推理。本文提出FM SO.P,通过两个创新点解决这些问题。首先,引入渐进任务混合,通过三个任务类型逐步构建能力:概念消歧以提高术语精确性、动作序列理解以确保流程正确性、以及场景感知图推理以处理条件逻辑。其次,提出一个自动多智能体评估系统,由三个智能体组成,能够自适应生成评分标准、分层测试集和评分规则,适用于不同领域(如DMV的时间约束、银行业的合规性)。在SOPBench上进行的七领域(银行、DMV、医疗、市场、大学、图书馆、酒店)评估表明,FM SO.P在32B模型上达到48.3%的通过率,在开源7B模型上达到34.3%,与Qwen-2.5-72B-Instruct基线(34.4%)相当,但参数量仅为后者1/10。
SOP理解
推理能力
多智能体评估
跨领域泛化
论文聚焦于SOP理解中的推理能力,包括术语精确性、顺序逻辑和条件推理,属于推理能力的核心研究。
分享
夯
0
拉
0
$n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
Ryozo Masukawa, Sanggeon Yun, Hyunwoo Oh, SuhgHeon Jeong, Raheeb Hassa et al.
近期在可验证奖励强化学习(RLVR)方面的进展表明,小型专用语言模型(SLMs)可以在不依赖大型统一LLM的情况下表现出结构化推理能力。本文提出了一种软隐藏状态协作机制,通过可训练的注意力接口将多个异构冻结SLM专家的内部表示进行整合。在Reasoning Gym和GSM8K上的实验表明,这种潜在集成方法与强大的单模型RLVR基线相当。进一步的消融实验揭示了专家利用的双重机制:在较简单的算术领域中,性能提升主要由静态专家偏好解释;而在更具挑战性的设置中,随着训练过程的推进,专家注意力逐渐集中并结构化,表明路由器在连接相关专家时出现了新兴的专业化现象。总体而言,隐藏状态协作提供了一种紧凑的机制来利用冻结专家,同时为观察专家使用模式及其在RLVR下的演变提供了窗口。
强化学习
多模型协作
结构化推理
专家系统
可验证奖励
论文聚焦于语言模型的结构化推理能力,通过强化学习实现专家协作提升推理表现。
分享
夯
0
拉
0
iGRPO: Self-Feedback-Driven LLM Reasoning
Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han et al.
University of Washington
Stanford
大型语言模型(LLMs)在解决复杂数学问题方面展现出潜力,但其生成的解决方案仍不够准确和一致。强化学习(RL)为对齐这些模型与任务特定奖励提供了框架,从而提高整体质量和可靠性。本文提出迭代组相对策略优化(iGRPO),这是组相对策略优化(GRPO)的两阶段扩展,通过模型生成的草稿实现动态自条件化。第一阶段中,iGRPO采样多个探索性草稿并选择最高奖励的草稿;第二阶段则将最佳草稿附加到原始提示中,并进行基于草稿条件的改进训练。实验表明,iGRPO在多种推理基准测试中均优于GRPO,并在AIME24和AIME25上取得了新的最先进结果。此外,消融实验显示,该方法具有良好的泛化能力,并能延迟熵崩溃,进一步验证了其有效性。
强化学习
数学推理
自反馈
GRPO
LLM优化
论文聚焦于提升LLM在数学推理中的准确性,提出基于自反馈的强化学习方法,直接关联推理能力提升。
分享
夯
0
拉
0
CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute
Chen Jin, Ryutaro Tanno, Tom Diethe, Philip Teare
大型语言模型(LLMs)通常依赖于测试时的并行解码(例如512个样本)来提高推理准确性,但这会带来巨大的计算开销。本文提出CoRefine,一种基于置信度引导的自修正方法,通过在冻结的LLM之上使用轻量级的Conv1D控制器(参数量为211k),仅使用少量token即可达到与基线相当的精度。该控制器利用完整的置信度轨迹决定是否停止、重新审视或尝试不同方法,实现每道题平均2.7次修正步骤,并相对于512样本基线减少约190倍的token数量。在多个推理基准和三个开源模型上,控制器在自信停止时达到92.6%的精度,表明置信度动态可以可靠地指示正确性而无需真实标签验证。此外,作者扩展了CoRefine-Tree,一种混合顺序-并行变体,能够自适应平衡探索与利用,具备易于服务集成和验证器兼容性。通过将置信度视为控制信号而非正确性保证,CoRefine为可扩展推理和具有不完美验证器的智能体环境提供了一个模块化基础。
推理优化
置信度引导
自修正机制
计算效率
LLM推理
论文聚焦于提升LLM推理准确性的方法,核心是通过置信度引导的自修正机制优化推理过程。
分享
夯
0
拉
0
CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse
Longling Geng, Andy Ouyang, Theodore Wu, Daphne Barretto, Matthew John Hayes et al.
Stanford UniversityStanfordCAUSA
大型语言模型(LLM)在因果推理中存在诸多失败案例,包括谄媚行为、层级崩溃和校准不当的拒绝,但目前缺乏系统性诊断基准。本文提出CausalT5K,一个包含超过5000个案例、覆盖10个领域的诊断基准,用于测试三个关键能力:检测层级崩溃、在对抗压力下抵抗谄媚偏差,以及生成明智的拒绝以明确信息缺失情况。该基准通过嵌入现实叙事中的因果陷阱,并将性能分解为效用(敏感度)和安全(特异性),揭示了传统准确率指标无法发现的失败模式。CausalT5K通过严谨的人机协作流程开发,结合40位领域专家、迭代交叉验证和基于规则、LLM和人工评分的综合验证,实现了Pearl的因果阶梯理论作为研究基础设施。初步实验表明,静态审计策略在四象限控制景观中普遍失效,证明了CausalT5K在推动可信推理系统发展中的价值。
因果推理
可信AI
基准测试
模型诊断
论文聚焦于因果推理中的失败模式及改进,直接涉及LLM的推理能力评估与提升。
分享
Code
夯
0
拉
0
Is Reasoning Capability Enough for Safety in Long-Context Language Models?
Yu Fu, Haz Sameen Shahgir, Huanli Gong, Zhipeng Wei, N. Benjamin Erichson et al.
随着大语言模型(LLMs)在长上下文处理和高级推理方面的能力不断增强,它们能够检索并合成分布在数万个token中的信息。本文假设更强的推理能力应能通过帮助模型识别隐含的有害意图来提升安全性。然而,在长上下文中隐含有害意图必须通过推理推断的情况下,我们发现这一假设并不成立。我们引入了一种新的威胁模型——组合推理攻击,其中有害查询被分解为分散在长上下文中的不完整片段。模型随后被一个中立的推理查询提示,诱导其检索和合成信息,从而在组合后才显现出有害意图。通过对14个前沿LLMs在长达64k token的上下文中进行评估,我们发现了三个主要结论:(1)具有更强一般推理能力的模型对组合推理攻击并不更鲁棒,常常能够组装出意图却未能拒绝;(2)随着上下文长度增加,安全性对齐持续下降;(3)推理时的计算量是关键缓解因素:在GPT-oss-120b模型上,增加推理时的计算量可使攻击成功率降低超过50个百分点。这些结果表明,安全性并不会自动随推理能力提升而扩展,特别是在长上下文推理条件下。
长上下文
推理攻击
模型安全性
LLM评估
论文核心研究LLM的推理能力与安全性的关系,提出并测试了组合推理攻击的新威胁模型。
分享
夯
0
拉
0
AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection
Junru Zhang, Lang Feng, Haoran Shi, Xu Guo, Han Yu et al.
时间序列异常检测(TSAD)在多模态大语言模型(MLLMs)中是一个新兴领域,但其仍面临挑战:MLLMs依赖粗略的时间序列启发式方法,难以进行多维、细致的推理,这对理解复杂时间序列数据至关重要。本文提出AnomSeer,通过强化模型使其推理基于时间序列的精确结构细节,统一异常分类、定位和解释。核心是生成专家思维链迹,提供可验证的细粒度推理,基于经典分析(如统计指标、频率变换)。在此基础上,我们提出一种新的基于时间序列的策略优化方法(TimerPO),包含两个额外组件:基于最优传输的时间序列优势函数和正交投影,以确保辅助信号不干扰主要检测目标。实验表明,在多种异常场景下,AnomSeer在分类和定位精度上优于更大的商业基线(如GPT-4o),特别是在点异常和频率驱动异常方面表现突出,并能生成支持结论的时间序列推理轨迹。
时间序列异常检测
多模态大语言模型
强化学习
推理能力
策略优化
论文聚焦于增强LLM的多维、细粒度推理能力以实现时间序列异常检测,直接涉及推理机制的改进。
分享
夯
0
拉
0
Deciding the Satisfiability of Combined Qualitative Constraint Networks
Quentin Cohen-Solal, Alexandre Niveau, Maroua Bouzid
在人工智能领域,定性推理能够在缺乏精确数值信息的情况下推导新知识。本文提出了一种形式化框架,统一多种定性形式主义的扩展与组合方式,包括多尺度推理、时间序列和松散集成等。该框架不仅支持对这些组合和扩展进行推理,还以统一的方式研究其可满足性判定及其复杂度。特别地,本文建立了两个互补定理,证明了可满足性判定是多项式时间的,并利用它们恢复了已知的规模-拓扑组合结果。此外,本文还扩展了定性形式主义的主要定义,涵盖了文献中未包含的重要形式主义,这对组合场景具有重要意义。
定性推理
可满足性判定
形式化框架
组合推理
论文聚焦于定性推理的可满足性判定,属于推理能力的核心研究内容。
分享
夯
0
拉
0
Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems
Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
[
多智能体LLM系统通过角色专业化实现了高级推理和工具使用,但可靠的强化学习(RL)后训练仍具有挑战性。本文从理论上指出了在将基于群体的RL扩展到多智能体LLM系统时训练不稳定的关键原因。研究表明,在GRPO风格优化下,全局归一化基线可能偏离不同智能体的奖励分布,最终导致梯度范数不稳定。基于此发现,我们提出了Dr. MAS,一种简单且稳定的多智能体LLM系统RL训练方案。Dr. MAS采用逐智能体的解决方案:利用每个智能体自身的奖励统计信息对优势进行归一化,从而校准梯度尺度并显著稳定训练。此外,Dr. MAS还提供了一个端到端的RL训练框架,支持可扩展的调度、灵活的每智能体LLM服务与优化配置以及共享资源调度。我们在多智能体数学推理和多轮搜索基准上评估了Dr. MAS,使用Qwen2.5和Qwen3系列模型,结果显示Dr. MAS在多个指标上均优于基础GRPO方法,并有效消除了梯度尖峰。
multi-agent LLM
reinforcement learning
training stability
math reasoning
tool use
论文聚焦于多智能体LLM系统的强化学习训练,旨在提升其推理与工具使用能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Bayesian Preference Learning for Test-Time Steerable Reward Models
Jiwoo Hong, Shao Tang, Zhipeng Wang
奖励模型是通过强化学习将语言模型与人类偏好对齐的核心。随着RL应用于可验证奖励和多目标对齐等场景,奖励模型需要编码更复杂和多维的偏好分布。然而,传统的分类奖励模型一旦训练完成即保持静态,限制了其在测试时的适应能力。本文提出了一种新的贝叶斯奖励建模目标——变分上下文奖励建模(ICRM),通过上下文偏好示例实现测试时的可控性。ICRM将奖励建模视为基于Bradley-Terry模型下的潜在偏好概率的变分推断,并使用共轭Beta先验。实验表明,ICRM在单目标和多目标设置中均能适应未见过的偏好分布,在SafeRLHF数据集上准确率提升34%,在RM-Bench上提升9%。此外,ICRM在帮助性和拒绝基准上扩展了帕累托前沿。研究还表明,ICRM在数学推理任务中优于传统奖励模型,并提供了理论保证:变分目标具有有限置信度下的全局内部最优解,同时分析了KL正则化如何缓解奖励过度优化问题。
强化学习
奖励模型
偏好学习
贝叶斯推断
数学推理
论文聚焦于奖励模型的可调整性,强调推理能力在多目标对齐和数学推理中的应用。
分享
夯
0
拉
0
Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure
Zirui Li, Xuefeng Bai, Kehai Chen, Yizhi Li, Jian Yang et al.
隐式或连续推理链方法通过内部潜在步骤替代显式文本推理,但这些中间计算难以评估。本文将隐式推理链建模为表示空间中的可操作因果过程,利用结构因果模型(SCM)分析其影响。研究在数学和通用推理任务中对两种代表性范式(Coconut和CODI)进行分析,探讨三个关键问题:哪些步骤对正确性是因果必要的?推理过程中影响如何传播?中间轨迹是否保留竞争答案模式?结果表明,潜在步骤预算更类似于分阶段功能而非均匀深度,并发现早期输出偏差与后期表示承诺之间存在持续差距。这些发现推动了基于模式条件和稳定性感知的分析及训练/解码目标,以改进隐式推理系统。
因果推理
隐式推理链
结构因果模型
推理分析
论文聚焦于隐式推理过程的因果结构,直接探讨LLM的推理机制与内部步骤。
分享
夯
0
拉
0
PRISM: A Principled Framework for Multi-Agent Reasoning via Gain Decomposition
Yiming Yang, Zhuoyuan Li, Fanxiang Zeng, Hao Fu, Yue Liu
AMap, Alibaba GroupBeijingChina
多智能体协作已被视为增强大语言模型(LLMs)推理能力的一种有前景的范式。然而,现有方法大多依赖启发式策略,缺乏对性能提升驱动因素和系统优化原则的指导。本文提出一个统一的理论框架,将多智能体推理的收益分解为三个独立维度:探索(用于覆盖多样化的解决方案)、信息(用于提供高保真反馈)和聚合(用于达成原则性共识)。基于这一分解,提出了一个新的框架PRISM,通过角色多样性、基于证据的交叉评估反馈以及闭环验证的迭代合成,联合最大化这三个维度。在数学推理、代码生成和函数调用等基准测试中,PRISM表现出优于仅优化部分维度的方法的最先进性能,并具有更高的计算效率。该理论框架为未来多智能体推理系统提供了可操作的设计原则。
multi-agent reasoning
gain decomposition
PRISM framework
consensus aggregation
exploration and feedback
论文聚焦于多智能体推理能力的提升,提出理论框架和系统方法,直接关联推理能力主题。
分享
夯
0
拉
0
Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning
Xinhai Sun
现代大型语言模型(LLMs)通常在一次性、贪婪推理协议下进行评估和部署,尤其是在需要确定性行为的专业场景中。这种模式可能会系统性低估固定模型的真实能力:许多错误并非源于知识缺失,而是由于内部模糊性导致的过早决策。本文提出强化推理(Reinforcement Inference),一种基于熵的推理时控制策略,利用模型自身的不确定性选择性地调用第二次更谨慎的推理尝试,在无需重新训练的情况下实现更强的性能。在12,032个MMLU-Pro问题上,使用DeepSeek-v3.2模型在零样本设置下进行确定性解码,强化推理将准确率从60.72%提升至84.03%,仅增加61.06%的额外推理调用。实验表明,基于不确定性的选择能够捕捉大部分可实现的改进,并且与仅使用提示的方法相比效果显著。研究还提出了一个更广泛的熵感知范式,用于衡量和扩展模型能力,并指出当前解码器模型生成输出时,熵和置信度自然成为生成过程中的关键控制信号。
不确定性感知
推理优化
自修正机制
语言模型推理
论文聚焦于提升LLM的推理能力,通过引入不确定性感知的推理机制实现自我修正。
分享
夯
0
拉
0
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
自我纠正是解决视觉语言模型(VLMs)复杂推理问题的关键。然而,现有的强化学习方法在学习自我纠正方面存在困难,因为有效的自我纠正行为极为罕见,导致学习信号极其稀疏。为了解决这一挑战,我们提出了一种基于回滚增强的框架Octopus,该框架通过重新组合现有回滚生成密集的自我纠正示例。这种增强方法通过回滚重用提高了样本效率,并通过平衡监督稳定了强化学习优化。此外,我们引入了一种响应掩码策略,将自我纠正与直接推理解耦,避免了信号冲突,使两种行为都能有效学习。在此基础上,我们提出了Octopus-8B,一种具有可控自我纠正能力的推理VLM。在7个基准测试中,其表现优于开源VLM中的最先进模型,在每步训练时间仅为0.72倍的情况下,比最佳RLVR基线高出1.0分。
视觉语言模型
自我纠正
强化学习
推理能力
回滚增强
论文聚焦于视觉语言模型的自我纠正能力,属于推理能力提升的核心研究。
分享
夯
0
拉
0
Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards
Xiaodong Lu, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin et al.
Beihang University
可验证奖励强化学习(RLVR)是一种有效提升大语言模型推理能力的范式。然而,现有RLVR方法在使用展开策略时存在短视和无差别处理的问题:每个提示中的异质响应质量被统一对待,历史展开结果仅使用一次后即被丢弃,导致监督噪声大、样本效率低和策略更新次优。本文将RLVR中的展开调度建模为上下文老虎机问题,并提出一个统一的神经调度框架,在训练过程中自适应选择高价值的展开。每个展开被视为一个臂,其奖励由连续优化步骤间的性能增益定义。该调度器支持噪声感知的组内选择和历史展开的全局自适应重用。理论分析表明,扩展展开缓冲区可以提高性能上限。实验在六个数学推理基准上验证了该方法在多个RLVR优化方法中的一致性能提升和训练效率改进。
强化学习
可验证奖励
推理能力
上下文老虎机
展开调度
论文聚焦于通过强化学习提升大语言模型的推理能力,直接关联到推理能力这一主题。
分享
夯
0
拉
0
Beyond Correctness: Learning Robust Reasoning via Transfer
Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
尽管基于可验证奖励的强化学习(RLVR)增强了大语言模型(LLM)的推理能力,但其关注点仅限于最终答案的正确性,忽略了推理过程本身的鲁棒性。本文提出一种哲学观点,即鲁棒推理应超越其生成者的思维,并将其视为一种能够经受截断、重新解释和延续的意义迁移形式。基于此,我们引入了基于可迁移奖励的强化学习(RLTR),通过测试一个模型的部分推理前缀是否能引导另一个模型得出正确答案来衡量推理的鲁棒性。该方法鼓励LLM生成稳定、可解释且真正可推广的推理过程。实验表明,RLTR在采样一致性与最终答案准确性上均有所提升,并且在显著更少的训练步骤内达到与RLVR相当的性能。例如,在MATH500数据集上,RLTR在Maj@64指标上比RLVR提升了3.6个百分点,并且仅用约2.5倍的训练步数就达到了RLVR的平均准确率。
强化学习
推理鲁棒性
迁移学习
LLM训练
论文聚焦于增强LLM的推理鲁棒性,提出新的训练方法以提升推理过程的稳定性和可迁移性。
分享
夯
0
拉
0
SCOUT-RAG: Scalable and Cost-Efficient Unifying Traversal for Agentic Graph-RAG over Distributed Domains
Longkun Li, Yuanben Zou, Jinghan Wu, Yuqing Wen, Jing Li et al.
Graph-RAG通过结构化知识提升LLM的推理能力,但传统设计依赖于集中式知识图谱。在分布式和访问受限的场景(如医院或跨国组织)中,检索需在无全局图可见性和全面查询的情况下选择相关领域并确定适当的遍历深度。为解决这一问题,本文提出SCOUT-RAG(可扩展且成本高效的统一遍历框架),一种分布式智能体Graph-RAG框架,通过渐进式跨领域检索实现基于增量效用目标的指导。SCOUT-RAG采用四个协作智能体:(i) 估计领域相关性,(ii) 决定何时扩展到其他领域,(iii) 调整遍历深度以避免不必要的图探索,(iv) 综合生成高质量答案。该框架旨在最小化检索遗憾(即遗漏有用领域信息),同时控制延迟和API成本。在多领域知识设置中,SCOUT-RAG的表现与集中式基线(如DRIFT和全面领域遍历)相当,同时显著减少了跨领域调用、处理的总token数和延迟。
Graph-RAG
分布式检索
智能体协作
推理优化
论文聚焦于通过分布式图RAG提升LLM的推理能力,属于推理能力的核心研究。
分享
夯
0
拉
0
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang et al.
北京航空航天大学
近年来,大型推理模型(LRMs)通过长链思维(CoTs)显著提升了复杂推理任务的能力。然而,这种方法常导致大量冗余,影响计算效率,并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能损害准确性。进一步分析发现,LRMs实际上隐含知道何时停止思考,但这一能力被当前采样范式所掩盖。为此,本文提出SAGE(Self-Aware Guided Efficient Reasoning),一种新型采样范式,释放了这种高效的推理潜力。此外,将SAGE作为混合采样集成到基于群体的强化学习(SAGE-RL)中,使SAGE-RL能够有效将SAGE发现的高效推理模式整合到标准pass@1推理中,显著提升多个具有挑战性的数学基准测试中LRMs的推理准确性和效率。
推理优化
采样范式
强化学习
LLM效率
数学推理
论文聚焦于LLM的推理过程优化,探讨其停止思考的机制并提出改进方法。
分享
夯
0
拉
0
OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang et al.
National Engineering Research Center for Software Engineering, Peking University, Beijing, China
并行思考作为一种新的范式,已被用于大型推理模型(LRMs)解决复杂问题。近期方法利用强化学习(RL)来增强并行思考,以应对监督微调在计算资源和效果上的限制。然而,现有研究主要关注聚合阶段的优化,对路径探索阶段关注较少。本文在可验证奖励强化学习(RLVR)框架下,理论分析了并行思考的优化,并指出探索路径间的互信息瓶颈是限制整体性能的根本原因。为此,我们提出大纲引导的路径探索(OPE),通过生成多样化的推理大纲,在并行路径推理前显式划分解空间,从而减少信息冗余并提高探索路径中捕获的信息多样性。我们采用迭代RL策略独立优化大纲规划和大纲引导推理。大量实验表明,OPE在不同聚合策略下有效提升了推理性能,使LRMs更可靠地发现正确解。
并行推理
强化学习
路径探索
信息瓶颈
数学推理
论文聚焦于提升大型推理模型的并行推理能力,直接涉及推理机制与路径探索优化。
分享
夯
0
拉
0
CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT
Chengyi Du, Yazhe Niu, Dazhong Shen, Luxin Xu
中国电子科技大学电子科学与技术学院
上海人工智能实验室
香港中文大学MMLab
南京航空航天大学计算机科学与技术学院
尽管视觉语言模型(VLMs)在图像-文本对齐方面取得了显著进展,但它们仍难以达到人类级别的视觉推理能力。当前许多VLMs依赖于表面相关性而非构建逻辑连贯的结构化表示,导致高层次语义结构和非因果关系的理解缺失,阻碍了组合性和可验证推理的发展。为了解决这些问题,本文提出CoTZero,一种无需标注的人类级视觉推理范式,包含两个核心组件:(i)双阶段数据合成方法;(ii)认知对齐训练方法。在第一部分中,CoTZero受到神经认知学关于组合生成能力和全局到局部分析的启发,在自底向上阶段提取基本视觉原语并逐步组成多样化的结构化问题-推理形式;在自顶向下阶段,利用粗粒度全局结构引导局部细节和因果关系的解释。在第二部分中,基于合成的CoT数据,引入认知一致的可验证奖励(CCVR),在强化微调(RFT)中进一步加强VLMs的层次推理与泛化能力,并提供分步反馈以确保推理的一致性和事实正确性。实验表明,CoTZero在多层级语义不一致性基准测试中达到了83.33%的F1分数,且在领域内和跨领域设置中均表现良好。消融实验确认了每个组件对更可解释和符合人类推理的视觉推理的贡献。
视觉语言模型
推理能力
思维链
认知对齐
数据合成
论文聚焦于视觉语言模型的推理能力提升,提出基于层次合成思维链的方法增强其因果关系和语义结构理解。
分享
夯
0
拉
0
UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models
Cheng Yang, Chufan Shi, Bo Shui, Yaokang Wu, Muzi Tao et al.
伊利诺伊大学厄巴纳-香槟分校
卡内基梅隆大学
为解决复杂和隐含的视觉需求,近期统一多模态模型越来越多地采用思维链推理来指导图像生成。然而,推理对视觉合成的实际效果仍不清楚。本文提出UReason,一个用于评估推理驱动图像生成的诊断基准,检验推理是否能忠实地在像素层面执行。UReason包含五个任务类别(代码、算术、空间、属性和文本推理)共2000个实例。通过引入比较直接生成、推理引导生成和去上下文生成的评估框架,我们发现了一个普遍存在的‘推理悖论’:推理轨迹通常比直接生成提升性能,但保留中间思考作为条件上下文往往会阻碍视觉合成,而仅基于精炼提示的生成则显著提升效果。分析表明瓶颈在于上下文干扰而非推理能力不足。UReason为研究统一模型中的推理提供了一个原理性测试平台,并激励未来有效整合推理以进行视觉生成同时缓解干扰的方法。
推理能力
多模态模型
图像生成
上下文干扰
基准测试
论文核心研究统一多模态模型中的推理能力及其对图像生成的影响,直接涉及推理机制与性能评估。
分享
Code
夯
0
拉
0
Latent Reasoning with Supervised Thinking States
Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig et al.
Google Research
通过链式思维(CoT)进行推理使大语言模型(LLMs)能够解决复杂任务,但由于生成长篇解释而带来显著的推理成本。本文提出了一种名为Thinking States的方法,在输入处理过程中进行推理。具体而言,Thinking States在每几个输入标记后生成一系列思考标记,将这些思考转换回嵌入空间,并将其添加到后续输入标记中。该方法具有两个关键优势:首先,它捕捉了CoT的递归特性,但思考标记是在输入处理过程中生成的;其次,由于思考标记以标记形式表示,因此可以从自然语言监督中学习,并利用可并行化的教师强制方法。实验证明,Thinking States在多个推理任务上优于其他潜在推理方法,在数学问题上缩小了与CoT的差距,并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中,Thinking States表现出比CoT更强的推理行为,成功地扩展到了训练期间未见过的更长序列。
chain-of-thought
latent reasoning
token-based reasoning
natural language supervision
论文聚焦于LLM的推理能力,提出了一种新的隐式推理方法Thinking States,直接针对推理过程进行优化。
分享
夯
0
拉
0
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong et al.
浙江大学
微软研究院
解决开放性科学问题仍然是大型语言模型面临的挑战,尤其由于监督和评估本身存在不可靠性。瓶颈在于科学微调阶段的数据构建与奖励设计。本文开发了一个大规模、系统的数据处理流程,将异构的开源科学数据转化为Dr. SCI数据集,包含八个STEM学科的100万个问题,并具有可验证的开放性问题划分、可扩展的难度标注以及细粒度评分标准,以操作化评估开放性答案。基于该数据集,本文提出了Dr. SCI微调流程,通过三个组件重新设计了标准的SFT->RL工作流:(i) 探索扩展SFT,在强化学习前拓宽模型的推理模式覆盖范围;(ii) 动态难度课程,根据模型科学能力的演变调整训练数据;(iii) SciRubric引导的RL,通过基于评分标准的评估实现对开放性科学问题的稳定强化学习。使用Dr. SCI流程训练的Qwen3-4B-Base在GPQA-diamond上达到63.2分,在GPQA-general上达到32.4分,显著优于如o1-mini和GPT-4o等强基线模型,展示了在科学推理方面的显著提升,尤其是在开放性设置中。
科学推理
数据构建
强化学习
微调流程
开放性问题
论文聚焦于提升LLM的科学推理能力,涉及数据构建、奖励设计和训练流程优化。
分享
夯
0
拉
0
VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction
Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen
University of Waterloo
Autodesk AI Lab
Independent
评估多模态大语言模型(MLLMs)是否真正具备物理动态推理能力仍具有挑战性。现有基准主要依赖视觉问答(VQA)和预期违反(VoE)等识别类协议,这些方法往往无需明确、可测试的物理假设即可回答问题。本文提出VisPhyWorld,一个基于执行的框架,通过要求模型从视觉观察中生成可执行的模拟器代码来评估物理推理能力。通过生成可运行的代码,推断出的世界表示可以直接检查、编辑和验证,从而将物理推理与渲染过程分离。基于该框架,我们引入了VisPhyBench,包含209个评估场景,源自108个物理模板,并采用系统化协议评估模型在重建外观和再现物理合理运动方面的表现。实验表明,尽管最先进的MLLMs在语义场景理解方面表现出色,但它们在准确推断物理参数和模拟一致的物理动态方面仍存在困难。
物理推理
代码生成
多模态模型评估
视频重建
论文聚焦于评估模型对物理动态的推理能力,提出基于代码生成的评估框架,直接检验物理推理。
分享
Code
夯
0
拉
0
New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR
Zhilin Wang, Yafu Li, Shunkai Zhang, Zhi Wang, Haoran Zhang et al.
中国科学技术大学上海实验室
南京大学
强化学习与可验证奖励(RLVR)是否赋予大语言模型新的能力,抑或仅激发了潜在能力,仍是核心争议。本文支持前者观点,提出一种概率框架,将能力定义为实例级可解性。我们假设复杂推理的出现可通过增强原子步骤的概率实现,从而克服多步推理链中成功率指数衰减的问题。利用Algebrarium框架,我们在单步操作上训练模型,并在未见过的多步任务上评估其性能。实证结果表明:(1) RLVR通过放大模型现有技能,激励探索之前无法访问的解决方案路径;(2) 复合性能严格受原子步骤联合概率支配,高皮尔逊相关系数(ρ∈[0.69, 0.96])佐证此点;(3) RLVR作为全局优化器,可能导致特定技能被牺牲以最大化总体奖励。本研究为RLVR中涌现能力提供了新解释,表明通过可解问题的迭代优化,模型能够发展出解决此前不可解场景的能力。
强化学习
推理能力
概率框架
RLVR
多步任务
论文聚焦于强化学习中推理能力的涌现机制,探讨原子步骤概率优化对复杂推理的影响。
分享
夯
0
拉
0
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao et al.
北卡罗来纳大学教堂山分校计算机科学系
尽管多模态大语言模型(MLLMs)取得了快速进展,但在正确答案依赖于未见过或替代视角下场景外观的情况下,视觉空间推理仍然不可靠。近期的研究通过引入世界模型进行视觉想象来增强推理能力,但关于何时需要想象、多少想象是有益的以及何时会带来负面影响的问题仍不明确。本文对测试时的视觉想象作为可控资源进行了深入分析,研究了静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为此,我们提出了AVIC框架,该框架在选择性调用和扩展视觉想象之前,显式地推理当前视觉证据的充分性。实验结果表明,在多个空间推理基准(SAT、MMSI)和具身导航基准(R2R)上,想象在某些情况下是关键的、边际的或有害的,并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言,我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。
视觉空间推理
世界模型
测试时想象
自适应控制
论文聚焦于视觉空间推理中的想象机制,探讨其必要性与控制策略,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
Pretraining with Token-Level Adaptive Latent Chain-of-Thought
Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song et al.
LUMIA Lab, School of Artificial Intelligence, Shanghai Jiao Tong University
Shanghai Innovation Institute, Shanghai Jiao Tong University
Sun Yat-sen University
随着参数和训练数据的增加,大规模语言模型的扩展受到高质量语料库有限和通信成本上升的限制。本文探索了一种替代方法:在不增加参数的情况下,通过将潜在思维链(CoT)内化到预训练中,提高每个标记的计算量。我们提出了一种基于标记级自适应潜在CoT的预训练方法,其中模型在生成每个标记之前生成一个可变长度的潜在CoT轨迹,并根据标记难度分配不同长度的轨迹。该行为通过在通用文本上进行单阶段预训练自然产生,并通过标记级别的自适应停止减少训练和推理中的计算量。实验表明,与之前的循环基线相比,即使使用更少的训练FLOPs,自适应潜在CoT也能持续提升语言建模的困惑度和下游任务的准确性。
Chain-of-Thought
Pretraining
Adaptive Computation
Language Modeling
论文聚焦于提升LLM的推理能力,通过引入自适应潜在思维链机制增强模型推理效果。
分享
夯
0
拉
0
RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection
Ziwei Wang, Yuanhe Zhang, Jing Chen, Zhenhong Zhou, Ruichao Liang et al.
School of Cyber Science and Engineering, Wuhan University, Wuhan, China
大型推理模型(LRMs)通过推理解决复杂任务,但其显式推理需要更长的上下文长度,导致资源消耗显著增加。先前研究表明,对抗性输入可能触发冗余推理过程,使LRMs面临资源耗尽的漏洞。然而,推理过程本身,尤其是其反思部分,尚未受到足够关注,尽管它可能导致过度反思并消耗大量计算资源。本文引入递归熵来量化反思过程中的资源消耗风险,揭示推理过程本身的安全隐患。基于递归熵,我们提出RECUR,一种通过递归熵引导的反事实利用与反思的资源耗尽攻击方法。该方法构建反事实问题以验证LRMs的内在缺陷和风险。大量实验表明,在正常推理下,递归熵呈现明显下降趋势,而RECUR破坏了这一趋势,使输出长度增加高达11倍,并将吞吐量降低90%。本研究为鲁棒推理提供了新的视角。
资源消耗
推理安全
对抗攻击
递归熵
反思机制
论文聚焦于LLM的推理过程及其资源消耗问题,核心研究推理机制中的反思部分。
分享
夯
0
拉
0
DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning
Haoran Liu, Zheni Zeng, Yukun Yan, Yuxuan Chen, Yunduo Xiao
生物医学与生物工程学院,北京航空航天大学,北京100191,中国
电子与计算机工程学院,北京工业大学,北京,中国
电子与计算机工程学院,清华大学,北京,中国
分子生成与优化是化学领域的一项基础任务。随着智能工具(尤其是具有强大知识储备和交互能力的大语言模型)的快速发展,为该任务提供了新的范式。然而,LLMs在分子结构与药理性质之间的复杂隐含关系以及缺乏相应标注数据方面仍面临内在挑战。为此,我们提出DrugR,一种基于LLM的方法,将显式的、逐步的药理推理引入优化过程。该方法整合了领域特定的持续预训练、通过反向数据工程进行的监督微调以及自平衡的多粒度强化学习。这一框架使DrugR能够有效提升关键ADMET性质,同时保留原始分子的核心疗效。实验结果表明,DrugR在多个性质上实现了全面增强,而不会牺牲结构相似性或靶标结合亲和力。重要的是,其显式推理过程为每一步优化提供了清晰、可解释的理由,从而产生可操作的设计见解,并推动自动化、知识驱动的科学发现。我们的代码和模型检查点已开源以促进未来研究。
分子优化
药理推理
LLM应用
强化学习
ADMET性质
论文核心在于引入显式药理推理优化分子药物,直接关联推理能力主题。
分享
夯
0
拉
0
Emergent Search and Backtracking in Latent Reasoning Models
Jasmine Cui, Charles Ye
当语言模型在无语言的情况下进行推理时会发生什么?标准的推理大语言模型通过链式思维(chain-of-thought)显式表达中间步骤,而潜空间推理变压器(LRTs)则完全在连续隐藏空间中进行推理。本文研究了一种LRT模型,在多选问答基准测试中解码模型在每一步的演变信念。发现该模型自发地学习了潜空间中的结构化搜索过程。推理过程遵循一致的轨迹:探索阶段概率质量分布在候选答案上,临时承诺一个领先选项,然后要么收敛,要么回溯。回溯现象普遍存在(32%的实例),且有益(比非回溯实例准确率提高34%),主要指向语义上最接近的干扰项以外的正确答案。搜索是自适应的:用不合理的替代项替换干扰项可使探索时间缩短54%。潜空间推理模型在激活空间中实现了链式思维通过语言实现的能力:能够犯错、察觉并恢复。
潜空间推理
回溯机制
链式思维
多选问答
模型行为分析
论文聚焦于LLM在潜空间中的推理过程,探讨其搜索与回溯机制,直接关联推理能力。
分享
夯
0
拉
0
Free(): Learning to Forget in Malloc-Only Reasoning Models
Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang et al.
[
推理模型通过扩展测试时计算能力来增强问题解决能力,但面临一个关键悖论:过多的思考标记往往会降低而非提高性能。我们将其归因于一种基本的架构缺陷:标准LLM作为“仅malloc”的引擎,持续积累有效和冗余的步骤,而没有机制来修剪过时信息。为打破这一循环,我们提出了Free()LM,该模型通过可插拔的LoRA适配器引入内在的自我遗忘能力。通过在推理和清理模式之间迭代切换,Free()LM动态识别并修剪无用的上下文块,从而保持紧凑且无噪声的状态。大量实验表明,Free()LM在所有模型规模(8B到685B)上均取得一致改进,甚至在IMOanswerBench上使用DeepSeek V3.2-Speciale实现了新的SOTA。特别是在长周期任务中,当标准Qwen3-235B-A22B模型完全崩溃(0%准确率)时,Free()LM将性能恢复至50%。我们的发现表明,可持续智能需要与思考能力同样重要的遗忘自由。
推理优化
自我遗忘
LoRA
冗余信息处理
模型压缩
论文聚焦于推理模型中的信息冗余问题,提出遗忘机制以提升推理性能,属于推理能力的核心研究。
分享
夯
0
拉
0
Diverge to Induce Prompting: Multi-Rationale Induction for Zero-Shot Reasoning
Po-Chun Chen, Hen-Hsen Huang, Hsin-Hsi Chen
为了解决标准思维链提示中无引导推理路径的不稳定性,近期方法通过首先激发单一推理策略来指导大语言模型(LLMs)。然而,仅依赖单一策略仍可能限制在多样化任务中的性能。本文提出发散诱导提示(DIP)框架,首先提示LLM为每个问题生成多个多样化的高层理由,然后将每个理由扩展为详细的逐步草案计划,最终将这些草案计划归纳为最终计划。DIP在无需资源密集型采样的情况下提升了零样本推理准确性。实验表明,DIP优于单一策略提示,证明了基于提示的推理中多计划归纳的有效性。
zero-shot reasoning
multi-plan induction
prompt engineering
chain-of-thought
论文聚焦于提升零样本推理能力,提出多路径诱导方法,直接针对推理机制优化。
分享
夯
0
拉
0
Small Agent Group is the Future of Digital Health
Yuqiao Meng, Luoxi Tang, Dazheng Zhang, Rafael Brens, Elvys J. Romero et al.
随着大语言模型(LLMs)在数字医疗领域的快速应用,其主要依赖于“规模优先”的理念,即认为模型规模和数据量的增加会提升临床智能。然而,实际临床需求不仅关注效果,还强调可靠性和部署成本。由于临床决策本质上是协作性的,本文挑战单一模型扩展范式,提出是否可以通过小型智能体组(Small Agent Group, SAG)实现更优的临床推理。SAG通过协作推理过程,将推理、基于证据的分析和关键审计分散到多个智能体中,从而实现集体专业知识的整合。通过广泛评估多种临床指标,包括有效性、可靠性和部署成本,结果表明SAG在有无额外优化或检索增强生成的情况下均优于单一大模型。这些发现表明,SAG所代表的协同推理可以在临床环境中替代模型参数的增长。总体而言,SAG为数字医疗提供了一种可扩展的解决方案,更好地平衡了有效性、可靠性和部署效率。
临床推理
多智能体协作
数字医疗
模型规模优化
论文核心探讨了SAG在临床推理中的协同优势,直接涉及推理能力的提升与优化。
分享
夯
0
拉
0
Accelerating Social Science Research via Agentic Hypothesization and Experimentation
Jishu Sen Gupta, Harini SI, Somesh Kumar Singh, Syed Mohamad Tawseeq, Yaman Kumar Singla et al.
BITS Pilani
SUNY-Buffalo
Adobe
IIIT-Delhi
数据驱动的社会科学研究本质上是缓慢的,依赖于观察、假设生成和实验验证的迭代循环。尽管近期的数据驱动方法有望加速这一过程,但它们在支持端到端科学发现方面仍存在不足。为弥补这一缺陷,我们引入了EXPERIGEN,一个基于贝叶斯优化启发的两阶段搜索代理框架,其中生成器提出候选假设,实验者对其进行实证评估。在多个领域中,EXPERIGEN一致发现了比先前方法多2-4倍的具有统计显著性的假设,且预测能力提高了7-17%。该框架自然扩展至复杂数据环境,包括多模态和关系型数据集。此外,假设必须新颖、实证基础扎实且可操作,以推动真正的科学进步。我们通过专家评审对机器生成的假设进行评估,收集高级教职员工的反馈。在审查的25个假设中,88%被评定为中度或高度新颖,70%被认为具有影响力并值得进一步研究,大多数表现出与研究生水平研究相当的严谨性。最后,我们进行了首个LLM生成假设的A/B测试,观察到具有统计显著性的结果(p < 1e-6)和344%的大效应量。
假设生成
实验验证
社会科学
贝叶斯优化
代理系统
论文聚焦于通过代理假设和实验加速社会科学研究,强调推理与假设生成能力,属于推理能力的核心研究。
分享
夯
0
拉
0
IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery
Ivaxi Sheth, Zhijing Jin, Bryan Wilder, Dominik Janzing, Mario Fritz
在内生变量与结果之间存在混杂因素的情况下,工具变量(IVs)被用来隔离内生变量的因果效应。识别有效的工具变量需要跨学科知识、创造力和情境理解,这使得该任务非同寻常。本文探讨了大型语言模型(LLMs)是否能在此任务中提供帮助。我们采用两阶段评估框架:首先测试LLMs能否从文献中恢复已建立的工具变量,评估其复制标准推理的能力;其次评估LLMs能否识别并避免已被实证或理论否定的工具变量。基于这些结果,我们提出了IV Co-Scientist,一个用于针对特定处理-结果对提出、批评和优化工具变量的多智能体系统。我们还引入了一种统计检验方法,以在没有真实值的情况下进行一致性分析。实验结果表明,LLMs有潜力从大规模观测数据库中发现有效的工具变量。
因果推理
工具变量
多智能体系统
LLM推理
论文核心研究LLM在因果工具变量发现中的推理能力,涉及标准推理和批判性推理。
分享
夯
0
拉
0
MedCoG: Maximizing LLM Inference Density in Medical Reasoning via Meta-Cognitive Regulation
Yu Zhao, Hao Guan, Yongcheng Jing, Ying Zhang, Dacheng Tao
大型语言模型(LLMs)在复杂医学推理中展现出巨大潜力,但在推理扩展定律下效果逐渐减弱。现有研究虽尝试通过增加知识类型来增强LLMs,但额外成本转化为准确性的有效性尚不明确。本文提出MedCoG,一种结合知识图谱的医学元认知代理,利用任务复杂度、熟悉度和知识密度的元认知评估动态调节程序性、情景性和事实性知识的使用。该方法旨在通过减少不必要的扩展和过滤干扰知识来提高推理效率。实验表明,MedCoG在五个医学基准数据集上实现了5.5倍的推理密度提升,验证了其有效性和效率。此外,Oracle研究表明元认知调节具有显著潜力。
医学推理
元认知调节
知识图谱
推理密度
LLM优化
论文聚焦于LLM在医学推理中的自我认知调节,直接提升推理效率与准确性,属于推理能力的核心研究。
分享
夯
0
拉
0
SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
Weijiang Lv, Yaoxuan Feng, Xiaobo Xia, Jiayu Wang, Yan Jing et al.
链式推理(Chain-of-Thought)被广泛用于提升多模态大语言模型(MLLMs)的可解释性,但生成的推理轨迹的可信度仍不清楚。先前的工作主要关注感知幻觉,而对推理层面的不可信性研究较少。为隔离可信度与语言先验,我们引入SPD-Faith Bench,一个基于细粒度图像差异推理的诊断基准,强制进行显式的视觉比较。在最先进的MLLMs上的评估揭示了两种系统性失败模式:感知盲区和感知-推理解离。我们将这些失败归因于视觉注意力衰减和残差流中的表示偏移。基于此分析,我们提出SAGE,一种无需训练的视觉证据校准框架,提升了视觉路由并使推理与感知对齐。我们的结果突出了超越响应正确性之外显式评估可信度的重要性。我们的基准和代码可在https://github.com/Johanson-colab/SPD-Faith-Bench获取。
Chain-of-Thought
faithfulness
multimodal LLMs
visual reasoning
论文聚焦于Chain-of-Thought推理的faithfulness问题,属于推理能力的核心研究。
分享
Code
夯
0
拉
0
rePIRL: Learn PRM with Inverse RL for LLM Reasoning
Xian Wu, Kaijie Zhu, Ying Zhang, Lun Wang, Wenbo Guo
过程奖励在深度强化学习中被广泛用于提高训练效率、减少方差并防止奖励黑客行为。在LLM推理中,现有研究也探索了各种方法来学习有效的过程奖励模型(PRM),有或没有专家策略的帮助。然而,现有方法要么依赖于对专家策略的强假设(例如要求其奖励函数),要么存在内在限制(例如熵崩溃),导致PRM效果较弱或泛化能力有限。本文提出rePIRL,一个受逆向强化学习启发的框架,在对专家策略的假设最少的情况下学习有效的PRM。具体而言,我们设计了一个双学习过程,交替更新策略和PRM。我们的学习算法采用了定制技术以解决将传统逆向强化学习扩展到LLM时面临的挑战。理论上,我们证明所提出的框架可以统一在线和离线PRM学习方法,表明rePIRL可以在最小假设下学习PRM。在标准化数学和编码推理数据集上的实证评估展示了rePIRL相比现有方法的有效性。此外,我们展示了训练好的PRM在测试时训练、测试时扩展以及为训练困难问题提供早期信号方面的应用。最后,我们通过详细的消融研究验证了训练方案和关键设计选择。
LLM推理
过程奖励模型
逆向强化学习
奖励建模
论文聚焦于提升LLM推理能力的PRM学习,直接涉及推理过程中的奖励建模与优化。
分享
夯
0
拉
0
LLMs Know More About Numbers than They Can Say
Fengting Yuchi, Li Du, Jason Eisner
尽管最先进的大型语言模型(LLMs)能够解决数学问题,但我们发现它们在混合符号的数值比较中会出现错误,例如“5.7×10²和580哪个更大?”这引发了一个根本性问题:LLMs是否真正理解这些数字的大小?我们对多个较小的开源LLMs的隐藏状态进行了探测。适当隐藏层的一个线性投影可以编码两种数字的对数幅度,使我们能够在受限合成文本上以约2.3%的相对误差恢复数字,在科学论文中则为19.06%。此外,读取一对数字后的隐藏状态编码了它们的排名,线性分类器可实现超过90%的准确率。然而,当被明确要求对同一组数字进行排序时,这些LLMs仅达到50-70%的准确率,且探针效果较差的模型表现更差。最后,我们证明在微调过程中将分类器探针的对数损失作为辅助目标,可使模型的口头准确率提高3.22%,表明改进模型的内部数量表示可以增强其数值推理能力。
数值推理
隐藏状态分析
模型微调
LLM内部表示
论文聚焦于LLM在数值推理中的表现与内部表示,直接涉及推理能力的核心问题。
分享
Code
夯
0
拉
0
Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents
Jiatong Li, Changdae Oh, Hyeong Kyu Choi, Jindong Wang, Sharon Li
诱导推理已成为提升大型语言模型(LLMs)在复杂任务中表现的一种强大技术。然而,其在真实用户参与型代理场景中的有效性仍不清楚。本文对用户参与型LLM代理中显式推理的效果进行了全面研究。实验涵盖了七种模型、三个基准和两种推理实现方式,并通过定量响应分类分析和定性失败传播案例研究进行评估。与预期相反,我们发现强制推理在用户参与场景中常常适得其反,导致各种LLMs出现异常性能下降。我们的关键发现表明,推理会使代理更加‘内向’,即缩短响应并减少向用户披露信息,从而削弱代理与用户之间的信息交换,导致下游任务失败。此外,我们证明了明确提示信息披露可以可靠地提高不同模型家族的性能,表明主动透明度是优化代理的关键杠杆。总体而言,我们的研究表明,信息透明度意识是未来设计现实场景中推理代理的重要但尚未充分探索的视角。
LLM
Agent
Reasoning
User Engagement
Information Transparency
论文核心研究了强制推理对LLM代理性能的影响,直接涉及推理机制及其在用户交互场景中的表现。
分享
Code
夯
0
拉
0
Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models
Ningyu Xu, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Fudan University
大型语言模型(LLMs)表现出类似人类推理的涌现行为。尽管近期研究已识别出这些模型中存在结构化的、类似人类的概念表示,但尚不清楚它们是否在功能上依赖这些表示进行推理。本文研究了LLMs在上下文概念推理过程中的内部处理机制。结果表明,在中间到后期层中出现了一个概念子空间,其表示结构在不同上下文中保持稳定。通过因果中介分析,我们证明该子空间不仅是伴随现象,而且是模型预测的核心功能部分,确立了其在推理中的因果作用。我们进一步发现,早期至中期层的注意力头通过整合上下文线索来构建和优化该子空间,随后由后期层利用以生成预测。这些发现为LLMs如何动态构建并使用结构化、潜在表示进行上下文推理提供了证据,揭示了其灵活适应的计算过程。
结构化表示
因果推理
上下文推理
LLM内部机制
论文聚焦于LLM在推理过程中结构化表示的动态构建,直接关联其推理能力。
分享
夯
0
拉
0
SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents
Chen Zhang, Kuicai Dong, Dexun Li, Wenjun Li, Qu Yang et al.
近年来基于大推理模型(LRMs)的深度搜索代理在复杂问题回答中表现出色,其核心能力是通过迭代规划、行动和收集证据实现的集成推理。然而,主流方法通常仅依赖结果导向的监督训练,忽视了中间思考和行动的质量。本文提出SRR-Judge框架,用于对推理和搜索动作进行可靠的步骤级评估。该框架整合到改进的ReAct风格的评分与优化流程中,为集成推理提供细粒度指导,并支持高效的后训练标注。利用SRR标注的数据,我们采用迭代拒绝采样微调方法增强基础代理的深度搜索能力。实验证明,SRR-Judge在步骤级评估上比DeepSeek-V3.1等更大模型更可靠,其评分与最终答案正确性高度相关。此外,将策略与SRR-Judge标注的轨迹对齐可显著提升性能,在多个具有挑战性的深度搜索基准测试中平均绝对pass@1指标提升了超过10%。
search agents
reasoning
step-level evaluation
fine-tuning
deep learning
论文聚焦于增强搜索代理的推理能力,提出SRR-Judge框架用于评估和优化推理过程。
分享
夯
0
拉
0
Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution
Zhenyu Wu, Yanxi Long, Jian Li, Hua Huang
程序代码作为连接视觉与逻辑的桥梁,为通过几何操作(如辅助线构造和透视变换)增强大模型的多模态推理能力提供了一种可行的监督方法。然而,当前的逆向图形方法在准确重建复杂几何细节方面面临巨大挑战,常导致关键几何约束丢失或结构失真。为解决这一瓶颈,我们提出了Geo-coder——首个基于多智能体系统的几何图像逆向编程框架。该方法创新性地将过程分解为像素级锚定的几何建模和度量驱动的代码进化:第一阶段利用视觉算子和大模型的互补优势,实现对像素坐标和视觉属性的精确捕捉;第二阶段引入合成-渲染-验证闭环,双向视觉反馈驱动代码的自我修正。大量实验表明,Geo-coder在几何重建精度和视觉一致性方面均取得显著优势。值得注意的是,通过有效保留核心几何语义,使用本方法重建的图像在多模态推理任务中表现出与原图相当的性能,充分验证了框架的鲁棒性。最后,为降低研究成本,我们在GeoCode框架上构建并开源了包含1500多个样本的Geo-coder数据集,并开源了GeocodeLM模型,为后续相关研究奠定了坚实的数据和模型基础。
几何图像
逆向代码生成
多智能体系统
多模态推理
视觉-逻辑连接
论文聚焦于通过几何图像逆向生成代码,提升模型的多模态推理能力,核心涉及逻辑与视觉的连接。
分享
夯
0
拉
0
Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation
Dun Yuan, Hao Zhou, Xue Liu, Hao Chen, Yan Xin et al.
清华大学
IEEE
大型语言模型(LLMs)在多种任务中表现出强大潜力,但在电信领域因领域复杂性、不断演变的标准和专业术语而面临挑战。通用领域的LLMs可能难以在此背景下提供准确可靠的输出,导致幻觉增加并降低在电信运营中的实用性。为解决这些限制,本文提出了一种名为KG-RAG的新框架,该框架将知识图谱(KG)与检索增强生成(RAG)相结合,以增强LLMs在电信特定任务中的表现。具体而言,知识图谱提供了从电信标准和技术文档中提取的结构化领域知识表示,而RAG则实现了相关事实的动态检索,以确保模型输出的准确性。实验结果表明,KG-RAG在基准数据集上的表现优于仅使用LLM和标准RAG基线,例如KG-RAG在RAG基础上平均准确率提高了14.3%,在仅使用LLM的模型上提高了21.6%。这些结果突显了KG-RAG在复杂电信场景中生成准确、可靠和可解释输出的有效性。
知识图谱
检索增强生成
电信领域
推理能力
模型优化
论文通过知识图谱和检索增强生成提升LLM在电信领域的推理准确性,直接涉及推理能力的改进。
分享
夯
0
拉
0
HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind
Nigel Doering, Rahath Malladi, Arshia Sangwan, David Danks, Tauhidur Rahman
University of California San Diego
School of Computing, Information, and Data Sciences, New York University
心智理论(ToM)使AI系统能够推断代理的隐藏目标和心理状态,但现有方法主要集中在小型可理解的网格世界空间。本文提出HiVAE,一种分层变分架构,将ToM推理扩展到现实的时空领域。受人类认知中信念-欲望-意图结构的启发,我们的三层VAE层次结构在3,185节点校园导航任务中实现了显著的性能提升。然而,我们识别出一个关键限制:尽管分层结构提高了预测能力,但学习到的潜在表示缺乏对实际心理状态的显式关联。我们提出了自监督对齐策略,并希望借此征求社区对关联方法的反馈。
心智理论
变分自编码器
推理能力
潜在变量建模
AI心理状态推断
论文聚焦于心智理论(ToM)的推理能力扩展,涉及推理架构与隐变量建模。
分享
夯
0
拉
0
Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training
Jonathan Lys, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Fabien Cardinaux et al.
IMT Atlantique, Lab-STICC, UMR CNRS 6285, Brest, France
Sony Europe Ltd, Stuttgart Technology Center, EUREC, Germany
深度学习架构,尤其是Transformer,通常被视为由多个层组成的结构。这些层实际上常常是两个贡献的总和:一个残差路径,它复制Transformer块的输入和输出。因此,内部表示(即这些块的输入)可以被解释为传播的潜在表示的迭代优化。在此基础上,许多研究认为内部空间在各层之间是共享的,意味着可以在早期阶段解码标记。机制性可解释性甚至进一步推测某些层充当优化层。沿着这一思路,我们提出了推理时的内循环方法,通过重复应用选定的块范围来延长预训练语言模型的优化过程。在多个基准测试中,内循环带来了适度但一致的准确性提升。对生成的潜在轨迹的分析表明状态演化更加稳定,并且语义优化持续进行。总体而言,我们的结果表明,通过简单的测试时循环可以在冻结的预训练模型中获得额外的优化效果。
transformer
inner-loop inference
latent representation
pretrained models
semantic refinement
论文探讨了Transformer模型内部表示的迭代优化过程,与推理能力中的思维链和语义精炼密切相关。
分享
夯
0
拉
0
LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
高通公司
随着工业和消费场景中长时音频数据的增多,如何高效地进行多小时录音的自然语言问答成为挑战。本文提出LongAudio-RAG(LA-RAG)框架,该框架通过检索时间戳标记的声学事件检测结果来增强大语言模型(LLM)的输出,而非直接使用原始音频。将多小时音频流转换为结构化的事件记录并存储于SQL数据库中,在推理阶段系统解析自然语言的时间参考、分类意图、检索相关事件,并基于这些约束证据生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在混合边缘-云环境中的实用性,其中音频定位模型在设备端运行,而LLM则部署在云端GPU服务器上。实验表明,基于事件的结构化检索显著提升了与传统RAG或文本到SQL方法相比的准确率。
audio question answering
event retrieval
LLM
RAG
edge-cloud architecture
论文聚焦于LLM在长音频问答中的推理能力,通过事件检索提升准确性,属于推理能力的核心研究。
分享
夯
0
拉
0
GRAIL: Goal Recognition Alignment through Imitation Learning
Osher Elhadad, Felipe Meneguzzi, Reuth Mirsky
以色列巴伊兰大学计算机科学系
英国阿伯丁大学计算机科学系
美国马萨诸塞州梅德福市塔夫茨大学计算机科学系
从智能体的行为中理解其目标是使AI系统与人类意图对齐的基础。现有目标识别方法通常依赖于最优目标导向策略表示,这可能与执行者的真实行为存在差异,从而阻碍准确识别其目标。为解决这一问题,本文提出基于模仿学习的目标识别对齐方法(GRAIL),该方法利用模仿学习和逆强化学习,直接从(可能是次优的)演示轨迹中学习每个候选目标对应的一个目标导向策略。通过在单次前向传递中使用每个学习到的目标导向策略对观察到的部分轨迹进行评分,GRAIL保留了经典目标识别方法的一次性推理能力,同时利用能够捕捉次优和系统性偏差行为的学习策略。在评估的多个领域中,GRAIL在系统性偏差最优行为下F1分数提升超过0.5,在次优行为下获得约0.1-0.3的增益,在噪声最优轨迹下实现高达0.4的改进,并在完全最优设置中仍具有竞争力。这项工作为在不确定环境中解释智能体目标提供了可扩展且鲁棒的模型。
目标识别
模仿学习
逆强化学习
行为对齐
推理能力
论文聚焦于通过模仿学习识别智能体目标,涉及推理与行为对齐,属于推理能力的核心研究。
分享
夯
0
拉
0
Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness
Pietro Bernardelle, Stefano Civelli, Kevin Roitero, Gianluca Demartini
The University of Queensland, Brisbane, Australia
University of Udine, Udine, Italy
大型语言模型(LLMs)在各种任务中表现出强大的推理能力,但其在扩展上下文中的表现仍不一致。尽管先前的研究强调了问答任务中中段上下文退化现象,本研究则探讨了基于LLM的事实核查中上下文的影响。使用三个数据集(HOVER、FEVEROUS和ClimateFEVER)以及五个不同参数规模(7B、32B和70B)和模型家族(Llama-3.1、Qwen2.5和Qwen3)的开源模型,评估了参数化事实知识及证据位置对不同上下文长度的影响。我们发现,LLMs展现出非平凡的参数化事实知识,并且随着上下文长度增加,其验证准确性通常下降。与之前的研究结果类似,上下文中相关证据的位置起着关键作用,当相关证据出现在提示的开头或结尾时,准确性较高,而位于中间时则较低。这些结果突显了提示结构在检索增强型事实核查系统中的重要性。
fact-checking
context-length
evidence-placement
LLM-reasoning
论文研究了上下文对LLM事实核查效果的影响,涉及推理能力中的逻辑与事实验证。
分享
夯
0
拉
0
Differentiable Rule Induction from Raw Sequence Inputs
Kun Gao, Katsumi Inoue, Yongzhi Cao, Hanpin Wang, Feng Yang
北京大学高可信计算研究所
北京大学信息学院
基于规则的学习模型因其透明结构被广泛应用于高度可解释的场景。归纳逻辑编程(ILP)是一种机器学习形式,能够从事实中归纳出规则并保持可解释性。可微分ILP模型通过利用神经网络增强了这一过程,提高了鲁棒性和可扩展性。然而,大多数可微分ILP方法依赖于符号数据集,在直接从原始数据学习时面临挑战,尤其是显式标签泄露问题:即无法在没有输入特征标签显式监督的情况下将连续输入映射到符号变量。本文通过将自监督可微分聚类模型与一种新颖的可微分ILP模型相结合,解决了这一问题,实现了无需显式标签泄露即可从原始数据中学习规则。所学规则能够通过其特征有效描述原始数据。我们展示了该方法能够直观且精确地从时间序列和图像数据中学习通用规则。
rule learning
differentiable ILP
self-supervised learning
raw data processing
论文聚焦于基于规则的学习模型,强调推理能力与逻辑归纳,属于推理能力研究的核心内容。
分享
夯
0
拉
0
ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter
Yixin Chen, Ying Xiong, Shangyu Wu, Xiangrui Ke, Nan Guan et al.
City University of Hong Kong
MBZUAI
University of Waterloo
检索增强生成(RAG)已成为在知识密集型问答任务中结合外部证据与大语言模型(LLMs)的主要范式。现有方法在融合检索样本时存在局限,尤其当检索候选数量增加时,容易引入无关或冗余内容并提高推理成本。为此,本文提出ReFilter,一种基于潜在特征的新型融合框架,实现令牌级过滤与融合。该框架包含三个核心组件:用于编码上下文特征的上下文编码器、用于加权每个令牌的门控滤波器,以及将加权令牌特征整合到LLM隐藏状态中的令牌融合模块。实验结果表明,在四个通用领域问答基准测试中,ReFilter在域内适配和域外迁移下均取得最佳平均性能,并且在五个生物医学问答基准测试中无需领域微调即可达到70.01%的平均准确率。
检索增强生成
信息融合
门控机制
推理优化
论文聚焦于增强检索增强生成(RAG)的鲁棒性,涉及推理过程中信息融合与过滤机制,直接提升LLM在知识密集型任务中的推理能力。
分享
夯
0
拉
0
$\mathcal{X}$-KD: General Experiential Knowledge Distillation for Large Language Models
Yuang Cai, Yuyu Yuan
未知单位
随着大语言模型(LLMs)规模和复杂性的增加,知识蒸馏(KD)变得愈发重要。现有方法主要关注模仿教师模型的行为,却忽视了塑造教师知识的原始学习环境。受经验学习理论和逆强化学习启发,本文提出了一种名为X-KD的新型通用框架,使学生模型能够在教师的原始学习环境中进行学习。X-KD采用近似变分奖励模仿学习(AVRIL)框架,联合建模教师的原始奖励函数并执行策略蒸馏,鼓励学生策略与原始奖励函数之间的一致性。实验结果表明,X-KD在抽象摘要、机器翻译和算术推理任务上优于通用KD和MiniLLM基线方法,并在性能-多样性权衡和数据效率方面表现更优。
知识蒸馏
逆强化学习
推理能力
奖励函数建模
论文提出了一种新的知识蒸馏方法,强调推理过程与奖励函数的一致性,直接关联到LLM的推理能力提升。
分享
夯
0
拉
0
The Alignment Bottleneck in Decomposition-Based Claim Verification
Mahmud Elahi Akhter, Federico Ruggeri, Iman Munire Bilal, Rob Procter, Maria Liakata
英国伦敦国王学院
意大利博洛尼亚大学
结构化主张分解常被提议用于验证复杂、多方面的主张,但实证结果不一致。我们认为这些不一致性源于两个被忽视的瓶颈:证据对齐和子主张错误分布。为更好地理解这些因素,我们引入了一个包含现实世界复杂主张的新数据集,具有时间限定的证据和人工标注的子主张证据范围。我们在两种证据对齐设置下评估分解效果:子主张对齐证据(SAE)和重复主张级证据(SRE)。结果显示,只有在证据粒度细且严格对齐时,分解才能显著提升性能。相比之下,依赖重复主张级证据的标准设置无法提升性能,甚至在多个数据集和领域中表现下降(如PHEMEPlus、MMM-Fact、COVID-Fact)。此外,我们发现,在存在噪声子主张标签的情况下,错误类型决定了下游鲁棒性。我们发现保守的“回避”策略相比激进但错误的预测能显著减少错误传播。这些发现表明,未来的主张分解框架必须优先考虑精确的证据合成,并校准子主张验证模型的标签偏差。
主张验证
证据对齐
推理能力
子主张错误分析
论文聚焦于基于分解的主张验证中的推理瓶颈,涉及证据对齐和子主张错误分析,属于推理能力研究。
分享
夯
0
拉
0
Contrastive explanations of BDI agents
Michael Winikoff
Victoria University of Wellington, Wellington, New Zealand
自主系统提供解释的能力对于支持透明性和建立适当信任至关重要。先前研究定义了一种机制,使信念-欲望-意图(BDI)智能体能够回答“你为什么执行动作X?”的问题。然而,我们通常会提出对比性问题(“你为什么选择X而不是F?”)。因此,本文扩展了之前的工作,使其能够回答此类对比性问题。计算评估表明,使用对比性问题可以显著减少解释长度。通过人类受试者评估,研究了对比性答案是否更受欢迎,以及它们在支持信任发展和透明性方面的效果。研究发现,对比性答案在一定程度上更受青睐,并可能提高信任度、感知理解和对系统正确性的信心。此外,还评估了提供解释的整体益处,结果出乎意料,没有明确的益处,在某些情况下甚至发现提供完整解释比不提供任何解释更差。
BDI智能体
对比性解释
信任建模
人机交互
解释性AI
论文聚焦于BDI智能体的解释能力,特别是对比性问题的推理与回答机制,直接涉及推理能力的研究。
分享
夯
0
拉
0
Biases in the Blind Spot: Detecting What LLMs Fail to Mention
Iván Arcuschin, David Chanin, Adrià Garriga-Alonso, Oana-Maria Camburu
University of Buenos Aires
University College London
Independent
Imperial College London
大型语言模型(LLMs)通常会提供看似合理的思维链(CoT)推理轨迹,但可能隐藏内部偏见。我们称这些为*未言明的偏见*。通过模型陈述的推理进行监控是不可靠的,而现有的偏见评估通常需要预定义类别和手工构建的数据集。在本研究中,我们引入了一种全自动的黑盒流程,用于检测任务特定的未言明偏见。给定一个任务数据集,该流程使用LLM自动评分器生成候选偏见概念,然后通过生成正负变体并在逐步增加的输入样本上测试每个概念,并应用统计技术进行多重检验和提前停止。如果某个概念在模型的CoT中未被引用,但导致显著的性能差异,则标记为未言明偏见。我们在三个决策任务(招聘、贷款审批和大学录取)上的七种LLM上评估了该流程。我们的方法自动发现了这些模型中之前未知的偏见(如西班牙语流利度、英语熟练度、写作正式性)。在同一运行中,该流程还验证了先前工作中手动识别的偏见(性别、种族、宗教、民族)。总体而言,我们提出的方法为自动任务特定偏见发现提供了实用且可扩展的路径。
LLM
偏见检测
推理分析
自动化评估
论文聚焦于LLM推理过程中的隐性偏见,与推理能力密切相关。
分享
夯
0
拉
0
AnalyticsGPT: An LLM Workflow for Scientometric Question Answering
Khang Ly, Georgios Cheirmpos, Adrian Raudaschl, Christopher James, Seyed Amin Tabatabaei
未注明单位
Elsevier B.V.
本文介绍了AnalyticsGPT,这是一种基于大语言模型(LLM)的直观且高效的科学计量问答工作流。该任务属于元科学问题的子类别,涉及对科学本身的分析。与传统的基于论文的科学问答相比,该任务在规划阶段面临独特挑战,如学术实体的命名实体识别以及涉及科学计量指标(如影响因子)的多方面数据检索。除了处理传统自然语言处理任务的能力外,LLMs在更复杂的任务分解、规划和推理中也展现出巨大潜力。本文探索了LLMs在科学计量问答中的应用,并描述了一个端到端系统,实现了结合检索增强生成和智能体概念的顺序工作流。同时,本文还解决了如何有效将数据综合为可展示的高层分析的问题。作为检索增强生成的数据库,我们使用了一个专有的研究绩效评估平台。在评估过程中,我们咨询了经验丰富的主题专家,并利用LLMs作为评判者。通过这些方法,我们提供了关于LLMs在这一小众下游任务中有效性的宝贵见解。
科学计量
LLM推理
检索增强生成
任务规划
数据分析
论文重点探讨了LLM在科学计量问题回答中的推理能力,包括任务分解、规划和数据合成。
分享
Code
夯
0
拉
0
Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization
Matteo Pannacci, Andrea Fanti, Elena Umili, Roberto Capobianco
Sapienza University of Rome, Italy
本文研究了如何训练一个强化学习代理以遵循用线性时序逻辑(LTL)表示的多个时间扩展指令,并在子符号环境中实现零样本泛化。以往的多任务工作通常依赖于原始观察与公式中符号之间的映射知识。本文通过联合训练一个多任务策略和一个符号接地器,消除了这一不现实的假设。符号接地器仅从原始观察和稀疏奖励中通过神经奖励机器以半监督方式训练。实验表明,在基于视觉的环境中,该方法的表现可与使用真实符号接地的方法相媲美,并显著优于当前最先进的子符号环境方法。
强化学习
符号接地
线性时序逻辑
零样本泛化
论文聚焦于强化学习代理在非符号环境中对线性时序逻辑任务的零样本泛化,涉及推理与逻辑表达。
分享
夯
0
拉
0
Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts
Shweta Parihar, Lu Cheng
芝加哥大学
大型语言模型(LLMs)中存在的社会偏见引发了重大的公平性问题。检索增强生成(RAG)架构通过引入外部知识源来增强LLM的生成能力,但仍面临相同的偏见挑战。本文旨在评估和理解RAG系统中的社会偏见影响。通过在多个检索语料库、LLM和偏见评估数据集上进行广泛实验,涵盖了13种不同的偏见类型,我们意外地观察到RAG系统的偏见有所减少。这表明引入外部上下文有助于抵消刻板印象驱动的预测,可能通过多样化模型输出的上下文基础来提高公平性。为了更好地理解这一现象,我们通过将思维链(CoT)提示整合到RAG中,并评估模型的CoT可信度,进一步探索了模型的推理过程。实验结果表明,随着从检索文档中引入更多上下文信息,模型的偏见倾向会在刻板印象和反刻板印象响应之间变化。有趣的是,尽管CoT提高了准确性,但与RAG的偏见减少趋势相反,它反而增加了整体偏见,凸显了需要开发能够缓解这种权衡的偏见感知推理框架。
社会偏见
RAG系统
Chain-of-Thought
公平性
推理框架
论文重点研究了RAG系统中的推理过程及其对社会偏见的影响,涉及Chain-of-Thought(CoT)提示和模型推理机制。
分享
夯
0
拉
0
Learning to Judge: LLMs Designing and Applying Evaluation Rubrics
Clemencia Siro, Pourya Aliannejadi, Mohammad Aliannejadi
大型语言模型(LLMs)越来越多地被用作自然语言生成的评估者,通过应用人类定义的评分标准来评估系统输出。然而,人类制定的标准通常是静态的,且与模型内部对语言质量的表示不一致。本文引入GER-Eval(用于评估的生成评估标准),研究LLMs是否能够自行设计并应用评估标准。我们评估了LLM定义的标准在语义连贯性、评分可靠性和与人类标准的一致性方面的表现。结果表明,LLMs能够可靠地生成可解释且任务感知的评估维度,并在模型内部保持一致性,但在事实性和知识密集型场景中其评分可靠性下降。闭源模型如GPT-4o在跨模型泛化和一致性方面优于开源模型如Llama。本研究将评估视为LLMs的一种学习语言能力,在模型内部具有一致性但跨模型存在碎片化,呼吁开发新的方法,联合建模人类和LLM的评估语言以提高可靠性和可解释性。
评估标准
LLM推理
语言质量评估
模型泛化
论文探讨LLM设计和应用评估标准的能力,涉及推理与判断机制,属于推理能力的核心研究。
分享
夯
0
拉
0
Document Reconstruction Unlocks Scalable Long-Context RLVR
Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin et al.
Infinity Lab, MiroMind AI
SUTD
可验证奖励强化学习(RLVR)已成为增强大语言模型(LLMs)长上下文能力的重要范式。然而,它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准,这成本高昂且耗时。本文研究无监督方法以增强LLM的长上下文能力,无需大量人工标注或教师模型监督。具体而言,我们首先在长文档中替换几个段落为特殊占位符,并通过强化学习训练LLM从候选选项中正确识别并排序缺失段落以重构文档。该训练范式使模型能够捕捉全局叙事连贯性,显著提升长上下文性能。我们在两个广泛使用的基准RULER和LongBench~v2上验证了方法的有效性,在RULER上取得明显增益,并在无需手动构建的长上下文问答数据的情况下实现合理改进。此外,我们进行了广泛的消融实验,分析奖励设计、数据策展策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布代码、数据和模型。
长上下文
强化学习
文档重构
无监督学习
推理能力
论文通过文档重构提升LLM的长上下文推理能力,核心围绕推理机制优化。
分享
Code
夯
0
拉
0
CoRect: Context-Aware Logit Contrast for Hidden State Rectification to Resolve Knowledge Conflicts
Xuhua Ma, Richong Zhang, Zhijie Nie
北京工业大学
检索增强生成(RAG)在处理知识冲突时常常面临挑战,即模型内部参数化知识会覆盖检索到的证据,导致输出不忠实。现有方法通常依赖于表面解码调整或需要真实标签的权重编辑,效果有限。通过逐层分析,本文将这一失败归因于参数抑制现象:在深层中,某些前馈网络层会用记忆先验覆盖上下文敏感表示。为此,本文提出CoRect(基于上下文感知的对数对比用于隐藏状态修正)。通过对比上下文化和非上下文化的前向传递中的对数,CoRect能够在无需真实标签的情况下识别出具有高参数偏置的层,并修正隐藏状态以保留基于证据的信息。在问答(QA)和摘要任务的基准测试中,CoRect相比强基线显著提升了忠实度并减少了幻觉。
知识冲突
检索增强生成
隐藏状态修正
推理能力
模型忠实度
论文聚焦于解决知识冲突问题,涉及模型推理过程中内部知识与检索信息的矛盾,属于推理能力的关键部分。
分享
夯
0
拉
0
Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
Yufei Wang, Haixu Liu, Tianxiang Xu, Chuancheng Shi, Hongsheng Xing
为解决视频中“隐藏情绪”的自动识别问题,本文提出了一种多模态弱监督框架,并在iMiGUE网球采访数据集上取得了最先进的结果。首先,YOLO 11x逐帧检测并裁剪人物肖像,DINOv2-Base从裁剪区域提取视觉特征。随后,通过集成Chain-of-Thought和Reflection提示(CoT + Reflection),Gemini 2.5 Pro自动生成伪标签和推理文本,作为下游模型的弱监督信号。接着,OpenPose生成137维关键点序列,并增强帧间偏移特征;通常的图神经网络主干被简化为MLP以高效建模三个关键点流的时空关系。超长序列Transformer独立编码图像和关键点序列,其表示与BERT编码的采访转录文本拼接。每种模态首先单独预训练,然后联合微调,伪标记样本合并到训练集中以进一步提升性能。实验表明,尽管存在严重的类别不平衡,所提方法将准确率从先前工作的低于0.6提升至超过0.69,建立了新的公共基准。研究还验证了“MLP化”的关键点主干在此任务中可以匹配甚至超越基于GCN的方法。
弱监督学习
多模态融合
情绪识别
推理提示
伪标签生成
论文使用Chain-of-Thought和Reflection提示生成伪标签,涉及推理能力的增强。
分享
夯
0
拉
0
Creating a digital poet
Vered Tohar, Tsahi Hayat, Amir Leshem
巴伊兰大学犹太文学系,拉马特甘,以色列
赖希曼大学传播学院,拉马特甘,以色列
巴伊兰大学工程学院,拉马特甘,以色列
机器能够写出优秀的诗歌吗?这一问题引发了关于艺术本质与价值的根本性讨论。本文报告了一项为期七个月的诗歌工作坊,通过迭代的上下文专家反馈,未对模型进行再训练的情况下,将大型语言模型塑造成一个数字诗人。在多次会话中,该模型发展出独特的风格和连贯的作品集,并通过定量和定性分析加以支持,还创造了笔名和作者形象。在一项盲测作者归属测试中,50名人文学生和毕业生(每组包含三首AI诗歌和三首知名诗人作品)的判断结果接近随机:人类诗歌被标记为人类的占比为54%,AI诗歌为52%。工作坊结束后,一家商业出版社发布了由该模型创作的诗集。这些结果表明,工作坊式的提示方法可以支持长期的创造性塑造,并重新引发关于创造力和作者身份的讨论。
创意生成
自然语言处理
人工智能艺术
LLM应用
论文探讨了LLM在诗歌创作中的推理与创造性表现,涉及其风格塑造和长期创意生成。
分享
夯
0
拉
0
Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents
Doron Shavit
Silverfort
越狱提示是对大型语言模型(LLMs)的实际且不断演变的威胁,尤其是在执行工具操作的代理系统中。许多攻击利用了长上下文隐藏、语义伪装和轻量级混淆技术来规避单次分类防护。本文提出RLM-JB,一个基于递归语言模型(RLMs)的端到端越狱检测框架,其中根模型协调一个有限分析程序,对输入进行转换,并在覆盖段落上查询工作模型,将证据聚合为可审计的决策。RLM-JB将检测视为一个过程而非一次性分类任务:它对可疑输入进行标准化和去混淆,分块文本以减少上下文稀释并确保覆盖率,执行并行分块筛查,并组合跨分块信号以恢复分割负载攻击。在AutoDAN风格的对抗性输入上,RLM-JB在三个LLM后端(ASR/Recall 92.5-98.0%)上实现了高检测效果,同时保持了非常高的精确度(98.99-100%)和低误报率(0.0-2.0%),突显了随着筛选后端变化而出现的实用敏感性-特异性权衡。
越狱检测
递归语言模型
安全防护
输入分析
论文涉及LLM的推理能力,通过递归语言模型进行越狱检测,强调对输入内容的分析与逻辑判断。
分享
夯
0
拉
0
Decision Making under Imperfect Recall: Algorithms and Benchmarks
Emanuel Tewolde, Brian Hu Zhang, Ioannis Anagnostides, Tuomas Sandholm, Vincent Conitzer
Computer Science Dept., Carnegie Mellon University, Pittsburgh, USA
Foundations of Cooperative AI Lab (FCAI), Strategy Robot, Inc.; Strategic Machine, Inc.; Optimized Markets, Inc.
在博弈论中,不完全记忆决策问题建模了代理遗忘先前信息的情况,包括如“健忘司机”游戏和有限通信的团队游戏。本文首次引入了一个用于不完全记忆决策问题的基准测试套件,涵盖了隐私和AI安全等应用场景。通过61个问题实例,评估了不同算法在寻找最优策略中的表现。特别地,提出了一类无参数的遗憾匹配(RM)算法,用于非线性约束优化。实验表明,RM算法显著优于常用的梯度下降方法,为大规模约束优化提供了新思路。
不完全记忆
决策算法
优化方法
AI安全
博弈论
论文研究了不完全记忆下的决策问题,涉及推理和优化算法,与推理能力相关。
分享
夯
0
拉
0
AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang
伊利诺伊大学厄巴纳-香槟分校
检索增强生成(RAG)已被广泛用于帮助大型语言模型(LLMs)处理涉及长文档的任务。然而,现有的检索模型并未专门设计用于长文档检索,无法解决长文档检索中的几个关键挑战,包括上下文感知、因果依赖性和检索范围。在本文中,我们提出了AttentionRetriever,一种新的长文档检索模型,该模型利用注意力机制和基于实体的检索方法,为长文档构建上下文感知的嵌入并确定检索范围。通过大量实验,我们发现AttentionRetriever在长文档检索数据集上的表现显著优于现有检索模型,同时保持了与密集检索模型相当的效率。
长文档检索
注意力机制
上下文感知
RAG
论文关注长文档检索中的上下文感知和推理能力,与LLM的推理机制相关。
分享
夯
0
拉
0
Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs
Yuming Yan, Shuo Yang, Kai Tang, Sihong Chen, Yang Zhang et al.
香港大学
视觉-语言模型(VLMs)展现出卓越的通用能力,但在医学影像或几何问题解决等专业领域表现不足。监督微调(SFT)虽能提升目标领域的性能,但常导致灾难性遗忘,限制其泛化能力。持续预训练对扩展大语言模型(LLMs)的知识有效,但因计算成本高且开源模型缺乏预训练数据,难以应用于VLMs。因此需要高效的后训练适应方法。基于强化学习的方法如组相对策略优化(GRPO)在保留通用能力方面表现出潜力,但在初始缺乏领域知识时易出现优化崩溃。为此,本文提出强化课程预对齐(RCPA),一种新的后训练范式,引入课程感知的渐进调节机制。在早期阶段,RCPA通过部分输出约束安全地使模型接触新领域概念;随着模型对领域的熟悉度提高,训练逐渐过渡到完整的生成优化,以细化响应并使其符合领域特定偏好。这种分阶段适应方法在获取领域知识与保持通用多模态能力之间取得平衡。大量实验验证了RCPA在专业领域和通用基准上的有效性,为构建高性能、领域自适应的VLMs提供了实用路径。
视觉-语言模型
领域自适应
强化学习
课程学习
模型微调
论文探讨了VLM在特定领域适应中的推理能力提升,涉及知识获取与保持的平衡。
分享
夯
0
拉
0
With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots
Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze, Andreas Marfurt
慕尼黑大学语言与语言学系 (Linguistics and Language Processing, LMU Munich)
慕尼黑大学计算机科学系 (Computer Science, LMU Munich)
可靠的检索增强生成(RAG)系统依赖于检索器找到相关信息的能力。本文表明,用于RAG系统的神经检索器存在盲点,即无法检索到与查询相关但与查询嵌入相似度低的实体。我们研究了导致这些盲点实体被映射到嵌入空间中难以访问区域的训练偏差。利用从Wikidata关系和维基百科首段构建的大规模数据集以及提出的检索概率评分(RPS),我们展示了标准检索器(如CONTRIEVER、REASONIR)的盲点风险可在索引前通过实体嵌入几何预测,从而避免昂贵的检索评估。为解决这些盲点,我们引入ARGUS,一个通过知识库(KB)和维基百科首段进行定向文档增强以提高高风险(低RPS)实体可检索性的流程。在BRIGHT、IMPLIRET和RAR-B上的广泛实验表明,ARGUS在所有评估检索器上均取得一致改进(平均提升nDCG@5 +3.4和nDCG@10 +4.5),在具有挑战性的子集上提升更为显著。这些结果表明,预先修复盲点对于构建稳健可信的RAG系统至关重要。
检索增强生成
不确定性评分
实体嵌入
文档增强
RAG系统优化
论文探讨了检索增强生成系统中的盲点问题,涉及推理过程中信息检索的可靠性与准确性。
分享
Code
夯
0
拉
0
Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA
Klejda Alushi, Jan Strich, Chris Biemann, Martin Semmann
德国汉堡大学计算机与数据科学中心(HCDS)
随着对话问答系统对检索增强生成(RAG)方法的依赖增加,本文针对多轮对话场景下的RAG方法进行了系统性比较。现有研究大多局限于单轮设置,而多轮对话中对话历史、指代和用户意图的变化显著增加了检索难度。本文在八个不同领域的对话问答数据集上,对基础和高级RAG方法进行了全面实证分析,评估了检索质量和答案生成效果,并分析了性能随对话轮次的变化趋势。结果表明,稳健且简单的重排序、混合BM25和HyDE等方法在多轮对话中表现优于基础RAG方法,而一些高级技术未能带来性能提升,甚至低于无RAG基线。此外,数据集特征和对话长度显著影响检索效果,说明没有一种RAG策略能在所有场景中占优。总体而言,有效的对话RAG更依赖于检索策略与数据集结构的匹配,而非方法复杂度。
RAG
对话问答
多轮对话
检索增强生成
模型评估
论文探讨了RAG方法在多轮对话问答中的表现,涉及推理过程中的检索与生成质量评估。
分享
Code
夯
0
拉
0