news 2026/4/17 3:58:13

Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning(AAAI 2026)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning(AAAI 2026)

研究方向:Image Captioning

1.论文介绍

视觉定位是将文本查询与图像内特定区域联系起来。现有方法通常依赖于大量的特定任务注释和微调,限制了泛化能力。

本文引入了定位代理(GroundingAgent),一种无需特定任务微调的代理性视觉定位框架。采用一种结构化的迭代推理机制,整合了预训练的开词汇对象检测器、多模态大型语言模型(MLLMs)和大型语言模型(LLMs),通过联合语义和空间分析逐步精炼候选区域。还提供了强大的可解释性,透明地展示了每一个推理步骤,对其决策过程提供了清晰的见解。

用GPT-4o预测边界框与本文的方法预测边界框的对比图

2.方法介绍

2.1 问题定义

给定一个输入图像I和一个自然语言查询Q,视觉定位旨在通过预测其边界框bpred​来定位由Q描述的目标物体。

B(I)表示I中所有可能的边界框。

b为LLM生成的视觉内容,fvis​(I,b)和 flang​(Q)分别表示视觉和语言表示。

2.2 groundingAgent

一个无需训练的零样本视觉定位框架

预训练的开词汇检测器首先提出候选边界框。然后,MLLM为每个区域提供丰富的语义描述。最后,LLM逐步对这些描述、空间线索和场景上下文进行推理,以选择最匹配文本查询的边界框。整个流程无需任务特定微调,并提供清晰、可解释的推理轨迹。

1)候选生成

在生成候选目标区域的过程中,首先利用MLLM生成一段图像描述(全局描述),记作 C(I)。将自然语言查询 Q 与生成的图像描述 C(I) 进行拼接,得到体现用户意图以及图像本身语义内容的语境。基于这一语境,LLM进而推断出一组在语义上高度相关的候选目标概念(实体):

然后使用开放词汇的对象检测器在输入图像I上识别。对于每个概念c,检测器生成一组候选边界框:

bc,j​表示与概念c相关联的j号边界框

所有实体的候选框并集成整体候选集

用MLLM结合全图和候选框对每个候选框生成详细区域描述

为优先考虑显著对象,将候选边界框按其面积降序排列。area(bi​)表示边界框 bi​的面积,非极大值抑制(NMS)排序

注:非极大值抑制(NMS)

同一个目标,模型往往会预测出多个重叠的边界框(bounding boxes)
每个框都有一个置信度(score),保留置信度最高的框,删除和它重叠太多的框

在此精炼和排序阶段之后,每个候选项被表示为一个元组 (bi​,di​)

2)候选项选择

通过加入思维链推理过程,从𝐷𝑟𝑒𝑓=𝐷`𝐼,𝑄,𝑐𝐼D_ref= D`(I,Q,c(I))中选择最合适的候选项

整个流程的算法如下:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 3:56:56

GOOSE协议深度解析:从报文帧结构到变电站实时通信实战

1. GOOSE协议在变电站自动化中的核心地位 我第一次接触GOOSE协议是在2015年参与某500kV智能变电站改造项目时。当时看到保护装置之间通过网线替代了传统的硬接线,心里直打鼓——这些看似脆弱的网线真能承担起保护跳闸这样的关键任务吗?直到亲眼目睹了断路…

作者头像 李华
网站建设 2026/4/17 3:54:43

【Ubuntu2404】Ubuntu24.04下Docker引擎的安装与配置全攻略

1. 为什么选择Docker?容器化技术的核心优势 如果你是一名开发者或运维工程师,肯定听说过"Docker"这个名词。但你可能好奇:为什么大家都在用Docker?它和传统虚拟机有什么区别?简单来说,Docker就像…

作者头像 李华
网站建设 2026/4/17 3:54:28

别再只会拖控件!C#上位机入门:从0到1搞懂工业自动化大脑中枢

很多人对C#上位机的印象就是"拖几个按钮和文本框,连个PLC就行"。我刚入行的时候也是这么想的,结果第一次做汽车零部件厂的项目就栽了大跟头:界面卡死、通信断了连不上、数据乱码、多线程报错……折腾了半个月才勉强交付。后来才明白…

作者头像 李华
网站建设 2026/4/17 3:54:25

动态的内存管理

1.为什么要动态分配内存有的时候我们需要的空间大小只有在程序运行的时候才知道,这时候之前数组编译开辟空间的方式就不能满足了C语言引入了动态内存开辟,让程序员资金就可以申请和释放空间,这样就比较灵活了2.malloc和free2.1 mallocC语言提…

作者头像 李华
网站建设 2026/4/17 3:53:45

STM32F103C8T6最小系统板+ESP-01S模块联网实战:从CubeMX配置到MQTT数据上报

STM32F103C8T6与ESP-01S物联网开发实战:从硬件搭建到MQTT云端通信 在创客和嵌入式开发领域,STM32F103C8T6凭借其出色的性价比和丰富的资源成为入门首选,而ESP-01S WiFi模块则以极低的成本实现了物联网设备的无线连接能力。本文将带你完成一个…

作者头像 李华
网站建设 2026/4/17 3:52:10

快递查询-物流查询-快递物流查询接口介绍

目前,电商、货运等行业都需要快递查询功能,对运单号的物流轨迹进行跟踪。 通过快递查询接口,可以实时查询物流轨迹。支持顺丰、京东、EMS、申通、圆通、宅急送、韵达、中通、百世、天天、四通一达等1500物流公司,与物流公司官网同…

作者头像 李华