摘要
在动态军事环境中部署自主边缘机器人受到领域特定训练数据稀缺和边缘硬件计算能力限制的制约。本文提出了一种分层的零样本框架,将轻量级目标检测与紧凑型视觉-语言模型(VLM)相结合,使用Qwen和Gemma系列模型(4B-12B参数)。Grounding DINO作为高召回率、文本提示的区域提议器,将高置信度检测结果传递给边缘类VLM进行语义验证。我们在 Battlefield 6 的55个高保真合成视频上评估该流程,在三个任务中分别达到最高100%的误报过滤准确率、97.5%的损伤评估准确率以及55%-90%的细粒度车辆分类准确率。我们进一步扩展该流程为一个代理式的Scout-Commander工作流,实现100%正确的资产部署和9.8/10的推理得分(由GPT-4o评分),延迟低于75秒。一种新的“受控输入”方法解耦感知与推理,揭示了不同的故障表型:Gemma3-12B在战术逻辑上表现优异但在视觉感知上失败,而Gemma3-4B即使输入准确也会出现推理崩溃。这些发现验证了分层零样本架构在边缘自主性中的有效性,并提供了一个用于认证VLM在安全关键应用中适用性的诊断框架。
AI 推荐理由
论文重点研究了基于VLM的战术推理与语义验证,涉及零样本推理和边缘计算中的逻辑判断。
论文信息