摘要
组合图像检索(CIR)需要在异构的视觉和文本约束下进行复杂推理。现有方法主要分为统一嵌入检索和启发式智能体检索两类,前者存在单模型近视问题,后者受限于次优的试错调度。为此,本文提出OSCAR,一种基于优化引导的智能体规划框架。首次将启发式搜索过程转化为轨迹优化问题,并采用离线-在线范式。在离线阶段,通过原子检索选择与组合建模为两阶段混合整数规划问题,数学推导出最大化真实覆盖度的最优轨迹,并存储为黄金库供在线推理时使用。实验表明,OSCAR在多个基准数据集上均优于现有方法,且仅需10%训练数据即可取得优异性能,体现了规划逻辑的强泛化能力。
AI 推荐理由
论文提出了一种基于优化的智能体规划框架,用于解决复杂图像检索问题,核心在于任务分解与多步规划。
论文信息