news 2026/6/16 0:01:06

【腾讯微信团队-饶峰云-arXiv25】WeDetect：通过检索实现快速开放词汇目标检测

张小明

前端开发工程师

1.2k 24

文章封面图 — 【腾讯微信团队-饶峰云-arXiv25】WeDetect：通过检索实现快速开放词汇目标检测

文章：WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

代码：https://github.com/WeChatCV/WeDetect

单位：腾讯微信团队

一、问题背景：传统方法的“速度与精度”困局

传统开放词汇目标检测主要分为两类思路，却都存在明显短板：

融合型方法：通过深度跨模态融合层让图像和文字深度交互，精度较高，但计算量极大，导致推理速度慢，且视觉特征无法在不同文字查询间共享，换个描述就得重新计算；
非融合型方法：采用双塔架构，不用复杂融合，速度更快，但过去在精度和泛化能力上始终落后于融合型方法，难以支撑复杂场景需求。

此外，现有模型还存在功能单一的问题：要么只能做基础检测，要么无法处理“左边穿7号球衣的球员”这类复杂指令，要么不能精准检索小物体，难以覆盖多场景实际应用。

二、方法创新：以“检索”为核心，打造全能模型家族

腾讯团队跳出传统思路，将“检索”理念贯穿始终，推出了WeDetect模型家族，通过三大核心创新解决痛点：

1. 核心架构：无融合双塔，兼顾速度与对齐

WeDetect家族统一采用双塔架构，彻底抛弃耗时的跨模态融合层：

文本编码器：将文字描述（如“猫”“心形的锁”）编码成特征向量；
视觉编码器：提取图片中不同尺度的区域特征，采用ConvNeXt backbone，天生适配多尺度物体检测。
识别逻辑：通过计算文本特征与图像区域特征的相似度（点积）完成匹配，就像在“特征字典”里检索目标，无需反复交互，速度自然拉满。

2. 三大模型：各司其职，覆盖全场景需求

WeDetect（基础检测器）：模型家族的“地基”，基于预训练的CLIP模型微调，搭配1500万张图片、3.3亿个标注框的高质量数据集（含多粒度标签，如“动物→狗→黄色的狗”），通过分阶段训练，在无融合架构下实现超高精度。
WeDetect-Uni（通用候选框生成器）：冻结WeDetect的核心参数，仅训练一个“通用物体提示词”，就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性，可直接用于后续分类，还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体（哪怕是烟蒂这样的小物体）的图像，弥补了传统图像检索的细粒度短板。
WeDetect-Ref（复杂指令理解器）：结合大语言模型（LLM）处理复杂指令，先由WeDetect-Uni生成候选框，再让LLM作为分类器，通过二进制分类头对所有候选框并行打分，一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制，推理速度提升13倍，还能避免边界框回归不准的问题。

3. 数据与训练：细节拉满，筑牢性能根基

多粒度标签：为每个物体标注层级化标签，训练时随机采样，丰富文本多样性，助力细粒度对齐；
分阶段训练：先预训练视觉和文本编码器，再训练模型头部和颈部，最后端到端微调，充分复用预训练知识；
自动数据引擎：用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注，生成高质量、无遗漏的标注数据，减少人工成本。

三、实验结果：15个基准测试登顶，性能全面碾压

在15个主流 benchmarks 上的测试显示，WeDetect家族实现了“速度与精度”的双重突破：

1. 基础检测：又快又准

WeDetect-Tiny（33M参数）：在LVIS数据集上实现37.4 AP，比同类快模型YOLO-World-L高2.0 AP，且运行速度达62.5 fps，远超YOLO-World-L的54.6 fps；
WeDetect-Large：在LVIS数据集上达到49.4 AP，比此前的SOTA模型LLMDet高7.4 AP，性能断层领先。

2. 物体检索：细粒度优势明显

WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6，比经典模型CLIP高出37.2，能精准定位小物体和局部特征，检索速度远超传统方法。

3. 复杂指令理解：高效碾压大模型

WeDetect-Ref 4B（仅40亿参数）在RefCOCO/+/g数据集上平均准确率达93.2，比Qwen3-VL 4B高6.6个百分点，且推理速度是后者的13倍，甚至比Grounding-DINO-L还快；同时首次实现大模型在COCO数据集上AP突破50，比肩传统专业检测器。

四、优势与局限：实际应用的“加分项”与“待优化点”

核心优势

速度极快：无融合架构+并行推理，WeDetect-Tiny达62.5 fps，WeDetect-Ref比同类大模型快13倍，满足实时部署需求；
功能全面：统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务，无需多个模型拼接；
泛化性强：在跨领域数据集（如卡通、素描、纹身图像）和长尾类别上表现稳定，零样本迁移能力突出；
部署友好：架构简洁，可通过GPU和Flash Attention进一步加速，适配不同硬件环境。

现存局限

多查询支持不足：WeDetect-Ref是二进制分类模型，单次前向传播只能处理一个查询，多查询需多次推理后合并结果（但因速度足够快，实际影响较小）；
小样本极端场景：在极少数超小众类别或极模糊图像上，检索精度仍有提升空间。

五、一句话总结

WeDetect家族以“检索”为核心，通过无融合双塔架构、多粒度数据训练和功能化模型设计，首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破，为实时智能视觉应用提供了高效可行的解决方案。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/12 8:34:31

某大型集团管控信息化战略规划项目系列之蓝图设计方案 – 基础设施架构（BPIT运营模式）：智能混合云与BPIT（业务驱动的IT）运营模式

本方案为XX集团构建了一套以云为核心、服务为导向、安全为基石的现代化IT基础设施架构，不仅解决了历史遗留的系统孤岛与资源浪费问题，更为未来业务创新与数字化转型提供了坚实、灵活、智能的技术支撑。通过分阶段实施与持续优化，最终实现IT从…

作者头像

李华

网站建设 2026/6/12 8:38:11

对比测试：传统import与IMPORT.META.GLOB的效率差异

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个性能对比测试项目：1. 传统手动import方式实现100个组件导入 2. IMPORT.META.GLOB自动导入相同组件 3. 对比两种方式的：a) 代码量 b) 构建时间 c) 运…

作者头像

李华

网站建设 2026/6/15 23:49:31

Typst实战：从零开始构建学术论文模板

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个Typst项目，用于生成学术论文模板。功能包括：1. 自动生成目录和章节编号；2. 支持BibTeX参考文献管理；3. 提供常见的图表排版…

作者头像

李华

网站建设 2026/6/12 23:18:31

零基础入门：用AssetStudio创建你的第一个3D模型

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个交互式3D建模教学应用，引导用户完成简单模型创建。功能包括：1. 分步指导界面 2. 实时提示和错误检查 3. 预设初学者项目(茶杯/桌子/树) 4. 即时渲染…

作者头像

李华

网站建设 2026/6/7 16:04:27

通过语音指令控制家庭窗帘开关，根据室外光照强度，自动调节窗帘开合度，优化室内采光。

智能窗帘光照优化系统一、实际应用场景描述场景背景在煤矿智能化开采的办公区和调度中心，由于建筑结构原因，部分区域采光不均匀。传统窗帘控制依赖人工操作，无法根据室外光照强度自动调节，导致：1. 白天光照过强时&…

作者头像

李华

网站建设 2026/6/15 11:23:24

IPERF vs 传统网络测试工具：效率对比

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个IPERF与传统网络测试工具（如ping、traceroute）的对比工具，能够自动执行测试并生成对比报告。报告应包括测试时间、资源占用、结果准确性…

作者头像

李华