摘要
现有大语言模型在测试时的扩展定律强调通过延长推理长度来激发自反思行为。然而,这种垂直扩展策略在探索过程中常遇到瓶颈,模型容易陷入特定的思维模式。通过从深度转向并行性,平行推理可以缓解探索范围的缩小。然而,将这一范式扩展到视觉领域仍是一个开放的研究问题。本文首先探讨了视觉分割在并行推理中的作用,并提出了两种不同的策略。基于此,我们引入了Visual Para-Thinker,这是首个用于多模态大语言模型的并行推理框架。为保持路径独立性并促进推理多样性,我们的方法结合了Pa-Attention和LPRoPE。利用vLLM框架,我们开发了一个原生的多模态实现,支持高效的并行处理。在V*、CountBench、RefCOCO和HallusionBench等基准数据集上的实验证明,Visual Para-Thinker成功地将并行推理的优势扩展到了视觉领域。
AI 推荐理由
论文聚焦于视觉领域中的并行推理框架,直接涉及LLM的推理能力提升。
论文信息