OSCAR：面向组合图像检索的优化引导智能体规划

智能体规划组合图像检索轨迹优化混合整数规划

摘要

组合图像检索（CIR）需要在异构的视觉和文本约束下进行复杂推理。现有方法主要分为统一嵌入检索和启发式智能体检索两类，前者存在单模型近视问题，后者受限于次优的试错调度。为此，本文提出OSCAR，一种基于优化引导的智能体规划框架。首次将启发式搜索过程转化为轨迹优化问题，并采用离线-在线范式。在离线阶段，通过原子检索选择与组合建模为两阶段混合整数规划问题，数学推导出最大化真实覆盖度的最优轨迹，并存储为黄金库供在线推理时使用。实验表明，OSCAR在多个基准数据集上均优于现有方法，且仅需10%训练数据即可取得优异性能，体现了规划逻辑的强泛化能力。

AI 推荐理由

论文提出了一种基于优化的智能体规划框架，用于解决复杂图像检索问题，核心在于任务分解与多步规划。

论文信息

作者 Teng Wang, Rong Shan, Jianghao Lin, Junjie Wu, Tianyi Xu et al.

发布日期 2026-02-09

arXiv ID 2602.08603