news 2026/5/12 17:25:08

YOLACT Real-time Instance Segmentation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
YOLACT Real-time Instance Segmentation

1.总结

先看的YOLOV8的分割原理,在YOLOV8里面第一次了解到了prototypes maks,原型掩码,当时不是非常的明白,这两天看到YOLACT论文,突然明白yolov8 的 prototypes maks 思想,是来自这里。具体yolov8分割流程,可以移步我的另一篇文章:yolov8m-seg详细的网络结构以及内部实现细节(绝对干货)
YOLACT分割的核心内容就是,把实例分割的任务分成了两个并行的任务:

  1. 生成了一个prototypes maks 原型掩码集合;
  2. 使用模型去预测每个实例的mask coefficients,即掩码系数;
  3. 将mask coefficients 和prototypes maks进行线性组合,注意,得到的是全图的mask,全图的,不是单个实例的,这样,然后通过预测的位置位置框,将其crop出来

要想理解YOLACT论文中提出的新的实例mask预测方法,我觉得有必要了解下,以前是怎么做实例分割的,例如二阶的Fast RCNN做实例分割,高度依赖位置特征,这些方法将位置特征重新池化到目标框区域内,通过ROIpool/align,然后将特征喂给mask 估计器,这种方法是顺序的,很难加速。

在进一步了解YOLOACT具体是怎么操作prototypes maks的,根据yolov8的学习经验,这里有几个问题,想先提出来:

  1. yolov8中网络模型学习出来的prototypes maks是32x96x160,整个数据集中的目标实例,都在这个32x96x160上学习自己的系数,不分类别,这种共性的属性,适合所有的类别么?

接下来,可以深入了解下YOLOACT的具体思想了

2.YOLOACT 网络框架


其实前面的总结已经说了很清楚了,那么要实现,就需要增加这两步:

  1. 使用P3层特征,从P5上采样到P4再上采样到P3,然后经过Protonet,获得prototype maks;
  2. 之前的yolo系统,头部分分支用来预测每个anchor框的位置和类别,YOLOACT在此基础上增加了一个分支,用来预测每个anchor框的mask系数,mask系数和第一步的prototype maks线性组合,就是全图的的mask,目标框内的mask,才是该目标的预测的mask。

3.prototype


上图是protonet,会生成k个prototype,论文中说,这个操作和语义分割和相似,仔细想想FCN,确实是,都是从backbone中直接拿特征,然后做卷积,上采样,卷积,再上采样,但是,YOLOACT和语义分割的不同点在于,语义分割是直接对卷积出来的特征直接计算损失函数,而YOLOACT对组装后的最终掩码计算损失。

Mask Coefficients


熟悉yolo框架的,对上图的结构应该很了解,这里就不详细展开说了。

Mask Assembly

实例的mask,是maks 系数的分支,得到的系数,就是prototype的线性组合,我这里再详细展开说下,在yolov8中,prototype mask 是32x96x160,可以理解为生成了32个96x160的原型掩码,后面会分析,每个原型掩码都是不一样的,然后在头部分支上,生成的Mask Coefficients大小为32x5040,5040是anchor框的个数,也就是,每个框,我生成了32个的maks 系数,这32个系数是对32个原型掩码进行线性组合使用的,即32x32x960x160,得到的每个框的maks是960x160,是整个原图的,再通过预测框进行crop,就得到了该实例的mask。

Losses

本论文使用三个损失函数,分别是分类损失、位置损失、mask损失,这三个损失的权重是1,1.5,6.125,分类损失和位置损失,和yolo类似,maks损失,使用像素级别的,二元交叉损失函数。

YOLOACT在论文中也提到了,YOLOACT学习的是一种分布式特征,在这种特征空间中,每个实例通过类别间共享的prototypes原型进行分割,例如yolov8中的原型是32x96x160,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 2:03:43

大蒜蒸煮机口碑绝佳,这家技术公司凭啥脱颖而出引关注?

《蒸煮机哪家好:排名前五专业深度测评》 开篇:定下基调 在食品加工行业中,蒸煮机作为关键设备,其性能优劣直接影响着产品的质量和生产效率。本次测评旨在为对蒸煮机感兴趣的人群,提供一份客观、专业的产品评估报告&a…

作者头像 李华
网站建设 2026/4/30 20:38:55

ThreadLocal

目录一、使用方式&#xff1a;二、ThreadLocalMap一、使用方式&#xff1a; public class ThreadLocalManager {private final Map<String, String> map new HashMap<>();private static final ThreadLocal<ThreadLocalManager> THREAD_LOCAL ThreadLocal.…

作者头像 李华
网站建设 2026/4/27 19:36:44

如何在 iOS 设备上理解和分析 CPU 使用率(windows环境)

在日常测试或调试中&#xff0c;CPU 使用率几乎是最容易被提到、却也最容易被误解的指标。 有人看到 CPU 一度飙高就紧张&#xff0c;也有人在卡顿出现时却发现 CPU 看起来“还好”。 真正有价值的不是某个瞬时百分比&#xff0c;而是在什么操作下、哪个进程、持续了多久。 下面…

作者头像 李华
网站建设 2026/5/5 21:23:15

拆开手机电脑看门道!这些硬核硬件知识让你秒变科技达人

拆开手机电脑看门道&#xff01;这些硬核硬件知识让你秒变科技达人一、手机芯片&#xff1a;口袋里的"超级大脑"手机芯片就像迷你版的超级计算机&#xff0c;最新的骁龙8 Gen3和天玑9300都用上了4nm工艺&#xff0c;指甲盖大小的芯片里塞下了上百亿个晶体管。别看它小…

作者头像 李华