news 2026/2/16 8:16:11

多模态-8 YOLO World

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-8 YOLO World

这篇文章介绍多模态模型-YOLO World

多模态基础知识介绍可以看:多模态-1 基础理论

Grounding DINO介绍可以看:多模态-7 Grounding DINO

CLIP介绍可以看:多模态-2 CLIP

YOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》

YOLO World类似Grounding DINO,也是解决开放集合目标检测的问题,但是使用的图像编码器是YOLO(具体是YOLO V8),相比于以往的开放集合目标检测模型更轻量,推理部署阶段可进一步配合重参数化的技巧提升推理速度,使YOLO World接近于原始YOLO的速度,消费级显卡上可达70+ FPS。

一 模型结构与训练

YOLO World整体结构如下:

输入依旧是<图像,文本>,但是相比于Grounding DINO,YOLO World输入的文本是类别名称列表,而Grounding DINO是任意格式的文本。

YOLO-World 更适合“我知道要检测什么,只是模型没学过”的场景,而Grounding DINO 更适合“我用语言描述我想找的东西”的场景。

将图片输入到YOLO的Backbone中进行图像特征提取,将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP),利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐,将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出,和真实标签计算损失反向梯度传播训练整个YOLO World。

1.1 Text Encoder

利用CLIP对输入的文本类别列表,如[cat,dog,apple],进行特征编码表示,得到[C,D]大小的编码表示矩阵,其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。如果输入的是一整段的文本,则利用n-gram方法从文本中提取出文本类别列表,再进行特征编码表示,比如输入的是“a cat and a dog eat apple”,需要借助n-gram方法从这段文本中提取出来要检测的类别名词,然后形成类别名称列表再输入到CLIP中进行特征编码表示。

1.2 Vision-Language PAN

1.3 训练

二 实验结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/10 13:54:20

Nlohmann json:通过json array直接调用函数

json array里面可以保存不同类型的数据,那么我们可不可以直接把array解构出来,传递给一个函数呢? #include <nlohmann/json.hpp> #include <iostream> #include <fstream> #include <tuple> #include <string> #include <type_traits>…

作者头像 李华
网站建设 2026/2/11 17:06:37

网上书店管理系统开题报告

目录网上书店管理系统开题报告简介系统开发背景系统目标与功能技术选型与架构创新点与特色预期成果研究意义项目技术支持可定制开发之功能亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作网上书店管理系统开题报告简介 网上书店管理系统…

作者头像 李华
网站建设 2026/2/13 10:29:55

开题报告 宠物医院网站的设计与实现

目录 项目背景核心功能模块技术实现要点创新点分析预期成果 项目技术支持可定制开发之功能亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作 项目背景 随着宠物经济的快速发展&#xff0c;宠物医疗需求显著增长。传统宠物医院服务模式存…

作者头像 李华
网站建设 2026/2/8 10:46:22

学术 PPT 制作效率战!虎贲等考 AIPPT:10 分钟碾压 3 天手动排版

“熬 3 晚做的答辩 PPT&#xff0c;被导师批‘逻辑混乱像流水账’”“公式排版错位、图表无标注&#xff0c;修改 5 遍仍不达标”“论文数据散在 Excel&#xff0c;手动转 PPT 耗时 8 小时”—— 学术演示场景中&#xff0c;90% 的科研人都陷入过 “低效排版 专业不达标” 的双…

作者头像 李华
网站建设 2026/2/16 5:51:10

机器学习:Python音乐推荐平台 Django框架 TensorFlow推荐 融合深度学习与协同过滤推荐算法 千千音乐爬虫 大数据实战✅

博主介绍&#xff1a;✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ > &#x1f345;想要获取完整文章或者源码&#xff0c;或者代做&#xff0c;拉到文章底部即可与…

作者头像 李华
网站建设 2026/2/12 22:25:33

数据立方体在电商用户行为分析中的实战应用

数据立方体在电商用户行为分析中的实战应用&#xff1a;从“数据迷宫”到“决策地图” 一、引言&#xff1a;你是否也曾陷入“用户行为分析的困境”&#xff1f; 1.1 一个电商运营的真实痛点 上个月和一位电商运营朋友吃饭&#xff0c;他掏出手机翻出一张Excel表&#xff0c;眉…

作者头像 李华