几何图像 逆向代码生成 多智能体系统 多模态推理 视觉-逻辑连接
摘要

程序代码作为连接视觉与逻辑的桥梁,为通过几何操作(如辅助线构造和透视变换)增强大模型的多模态推理能力提供了一种可行的监督方法。然而,当前的逆向图形方法在准确重建复杂几何细节方面面临巨大挑战,常导致关键几何约束丢失或结构失真。为解决这一瓶颈,我们提出了Geo-coder——首个基于多智能体系统的几何图像逆向编程框架。该方法创新性地将过程分解为像素级锚定的几何建模和度量驱动的代码进化:第一阶段利用视觉算子和大模型的互补优势,实现对像素坐标和视觉属性的精确捕捉;第二阶段引入合成-渲染-验证闭环,双向视觉反馈驱动代码的自我修正。大量实验表明,Geo-coder在几何重建精度和视觉一致性方面均取得显著优势。值得注意的是,通过有效保留核心几何语义,使用本方法重建的图像在多模态推理任务中表现出与原图相当的性能,充分验证了框架的鲁棒性。最后,为降低研究成本,我们在GeoCode框架上构建并开源了包含1500多个样本的Geo-coder数据集,并开源了GeocodeLM模型,为后续相关研究奠定了坚实的数据和模型基础。

AI 推荐理由

论文聚焦于通过几何图像逆向生成代码,提升模型的多模态推理能力,核心涉及逻辑与视觉的连接。

论文信息
作者 Zhenyu Wu, Yanxi Long, Jian Li, Hua Huang
发布日期 2026-02-08
arXiv ID 2602.07749
相关性评分 9/10 (高度相关)