研究方向:Image Captioning
1.论文介绍
视觉定位是将文本查询与图像内特定区域联系起来。现有方法通常依赖于大量的特定任务注释和微调,限制了泛化能力。
本文引入了定位代理(GroundingAgent),一种无需特定任务微调的代理性视觉定位框架。采用一种结构化的迭代推理机制,整合了预训练的开词汇对象检测器、多模态大型语言模型(MLLMs)和大型语言模型(LLMs),通过联合语义和空间分析逐步精炼候选区域。还提供了强大的可解释性,透明地展示了每一个推理步骤,对其决策过程提供了清晰的见解。
用GPT-4o预测边界框与本文的方法预测边界框的对比图
2.方法介绍
2.1 问题定义
给定一个输入图像I和一个自然语言查询Q,视觉定位旨在通过预测其边界框bpred来定位由Q描述的目标物体。
B(I)表示I中所有可能的边界框。
b为LLM生成的视觉内容,fvis(I,b)和 flang(Q)分别表示视觉和语言表示。
2.2 groundingAgent
一个无需训练的零样本视觉定位框架
预训练的开词汇检测器首先提出候选边界框。然后,MLLM为每个区域提供丰富的语义描述。最后,LLM逐步对这些描述、空间线索和场景上下文进行推理,以选择最匹配文本查询的边界框。整个流程无需任务特定微调,并提供清晰、可解释的推理轨迹。
1)候选生成
在生成候选目标区域的过程中,首先利用MLLM生成一段图像描述(全局描述),记作 C(I)。将自然语言查询 Q 与生成的图像描述 C(I) 进行拼接,得到体现用户意图以及图像本身语义内容的语境。基于这一语境,LLM进而推断出一组在语义上高度相关的候选目标概念(实体):
然后使用开放词汇的对象检测器在输入图像I上识别。对于每个概念c,检测器生成一组候选边界框:
bc,j表示与概念c相关联的j号边界框
所有实体的候选框并集成整体候选集
用MLLM结合全图和候选框对每个候选框生成详细区域描述
为优先考虑显著对象,将候选边界框按其面积降序排列。area(bi)表示边界框 bi的面积,非极大值抑制(NMS)排序
注:非极大值抑制(NMS)
同一个目标,模型往往会预测出多个重叠的边界框(bounding boxes)
每个框都有一个置信度(score),保留置信度最高的框,删除和它重叠太多的框
在此精炼和排序阶段之后,每个候选项被表示为一个元组 (bi,di)
2)候选项选择
通过加入思维链推理过程,从𝐷𝑟𝑒𝑓=𝐷`𝐼,𝑄,𝑐𝐼D_ref= D`(I,Q,c(I))中选择最合适的候选项
整个流程的算法如下: