Segment Anything Model（SAM）介绍-平芜编程栈

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。

文章目录

概要
SAM的定义
SAM的网络架构
- 任务设计
- 模型设计
- 数据引擎和数据集
- SAM的结构
- 对任何 10 亿个掩模数据集进行分割
SAM 如何支持现实生活中的用例

概要

Segment Anything Model (SAM) 是 MetaAI Segment Anything 项目的一部分，该项目的目标是彻底改变分割模型的构建。凭借其“减少对特定任务建模专业知识、训练计算和自定义数据注释的需求”的承诺，SAM 有潜力改变我们在不同用例中感知视觉数据以及与视觉数据交互的方式。

在本文中，我们将提供 SAM 的技术分解，了解其当前的用例，并讨论其对计算机视觉未来的影响。

SAM的定义

SAM 旨在通过提供用于分割图像中的对象和区域的多功能且适应性强的基础模型来彻底改变我们进行图像分析的方式。

与需要大量特定任务建模专业知识的传统图像分割模型不同，SAM 消除了这种专业化的需要。其主要目标是通过充当基础模型来简化分割过程，该模型可以通过各种输入（包括点击、框或文本）进行提示，从而使更广泛的用户和应用程序可以访问它。

SAM 的与众不同之处在于它能够推广到新任务和图像领域，而无需自定义数据注释或广泛的再训练。 SAM 通过在包含超过 10 亿个分割掩码的多样化数据集上进行训练来实现这一目标，这些数据集是作为 Segment Anything 项目的一部分收集的。这个庞大的数据集使 SAM 能够适应特定的分割任务，类似于自然语言处理模型中使用提示的方式。

SAM 的多功能性、实时交互功能和零镜头传输使其成为内容创作、科学研究、增强现实等各个行业的宝贵工具，在这些行业中，准确的图像分割是数据分析和决策过程的关键组成部分。

SAM的网络架构

Segment Anything Model (SAM) 的核心是精心设计的网络架构，旨在彻底改变计算机视觉和图像分割领域。 SAM 的设计植根于三个基本组成部分：任务、模型和数据集。这些组件协同工作，使 SAM 能够以卓越的多功能性和准确性执行实时图像分割。

SAM 的网络架构由三个主要组件组成：

任务组件：通过提示定义用户交互和分段任务，适应各种现实场景。
模型组件：采用图像编码器、提示编码器和轻量级解码器来快速准确地生成分割掩模。
数据集组件：依靠 Segment Anything 1-Billion mask 数据集 (SA-1B)（包含超过 10 亿个掩模）来教授 SAM 通用功能，而无需进行大量再训练。

这些互连的组件共同构成了 SAM 架构的基石，使其能够以无与伦比的灵活性和精度解决无数图像分割挑战和实际应用。在接下来的部分中，我们将深入研究每个组件，以揭示 SAM 的内部工作原理。

SAM 的任务和模型设计元素协同工作，使图像分割变得易于使用且用途广泛。任务设计确保用户能够有效地传达他们的分割需求，而模型设计利用最先进的技术来提供准确、快速的分割结果。

任务设计

SAM 的任务设计元素定义了模型如何与图像分割任务交互并执行图像分割任务。其主要目标是使细分过程尽可能灵活、适应性强且用户友好。

以下是 SAM 任务设计的关键方面：

提示界面：SAM 的任务设计围绕“提示界面”。这意味着用户可以以各种形式向模型提供提示，例如单击、框、自由格式文本或指示在图像中分割什么内容的任何信息。这种多功能性允许用户根据自己的需要指定分割任务。
交互式分割：SAM支持交互式分割，允许用户提供实时指导来细化掩模。用户可以交互式地单击要包含或排除对象的点、绘制边界框或提供文本描述，使分割过程更加直观。

适应歧义：SAM 的任务设计考虑了提示可能不明确（可能涉及多个对象）的情况。尽管存在这种模糊性，SAM 的目标是为其中一种可能的解释生成合理的掩码，即使在具有挑战性的场景中也确保可用性。

实时处理：SAM的任务设计包括实时处理能力。在预先计算图像嵌入后，SAM 可以在短短 50 毫秒内快速生成分割掩模，从而实现与模型的实时交互。

模型设计

SAM 的模型设计是使其能够有效且高效地执行图像分割任务的架构基础。

以下是 SAM 模型设计的关键方面：

图像编码器：图像编码器对输入图像产生一次性嵌入并提取其本质特征，作为后续分割的基础。
提示编码器：SAM 的模型包含一个轻量级提示编码器，可将用户提示实时转换为嵌入向量。该提示编码器解释各种提示格式，例如点击、框或文本，并将它们转换为模型可以理解的格式。
分割掩码解码：轻量级解码器负责预测分割掩码。它结合了图像嵌入和提示嵌入的信息，以生成准确的掩模来识别用户指定的对象或区域。
高效的运行时：SAM 的模型旨在高效运行，尤其是在运行时。它可以在网络浏览器中的CPU上运行，允许用户与模型实时交互。这种运行时效率是 SAM 可用性的关键因素。

数据引擎和数据集

分段任意模型 (SAM) 的数据引擎是负责创建和管理名为 SA-1B 的庞大且多样化的数据集的关键组件，该数据集在 SAM 的训练及其泛化到新任务和领域的能力中发挥着关键作用。该数据引擎结合了各种齿轮或阶段来有效地收集和增强数据集：

具有模型辅助的交互式注释（第一档）：在这个初始阶段，人类注释者积极与 SAM 互动以交互式注释图像。他们使用该模型来协助注加粗样式释过程，利用 SAM 的功能来分割对象。此阶段确保数据集的初始注释是高质量且信息丰富的。
自动和辅助注释的结合（第二档）：为了增加收集的掩模的多样性，数据引擎的第二档采用全自动注释和辅助注释的组合。 SAM 协助生成分段掩码，但该过程还包括某种程度的自动注释。这种组合有助于增强数据集的广度和多样性。
全自动掩码创建（第三档）：数据引擎的最后一个档位涉及全自动掩码创建。此阶段允许数据集显着扩展，因为 SAM 无需人工干预即可生成分段掩码。这种自动化使数据集能够快速扩展，同时保持数据质量。

通过整合这些设备，数据引擎有效地生成了一个庞大且多样化的数据集，其中包含从大约 1100 万张许可和隐私保护图像中收集的超过 11 亿个分割掩模。使用新注释更新 SAM 以及改进模型和数据集的迭代过程确保 SAM 在各种分割任务中变得越来越熟练。

SAM的结构

SAM 由三个组件组成：

图像编码器
灵活的提示编码器
快速掩模解码器

图像编码器

受可扩展性和强大的预训练方法的推动，SAM 使用经过最低程度改造的蒙版自动编码器 (MAE) 预训练视觉变换器 (ViT) 来处理高分辨率输入。图像编码器每张图像运行一次，并且可以在提示模型之前应用。

提示编码器

SAM 考虑两组提示：稀疏（点、框、文本）和密集（掩模）。 SAM 通过位置编码来表示点和框，位置编码与每种提示类型的学习嵌入相加，以及使用来自 CLIP 的现成文本编码器的自由格式文本。使用卷积嵌入密集提示（即掩码），并与图像嵌入按元素求和。

掩模解码器

掩码解码器有效地将图像嵌入、提示嵌入和输出标记映射到掩码。该设计采用了 Transformer 解码器块的修改，后跟动态掩码预测头。

SAM 修改后的解码器块在两个方向上使用即时自注意力和交叉注意力（即时图像嵌入，反之亦然）来更新所有嵌入。运行两个块后，SAM 对图像嵌入进行上采样，MLP 将输出标记映射到动态线性分类器，然后计算每个图像位置的掩模前景概率。

对任何 10 亿个掩模数据集进行分割

训练像 SAM 这样的模型需要大量且多样化的数据集，而项目开始时这些数据集并不容易获得。为了应对这一挑战，SAM 背后的团队开发了 SA-1B 数据集，该数据集由从大约 1100 万张许可和隐私保护图像中收集的超过 11 亿个高质量分割掩模组成。

数据集创建过程涉及交互式和自动注释方法的组合，与手动注释工作相比，显着加快了数据收集过程。该数据集的规模是无与伦比的，远远超过任何现有的分割数据集。

SAM 如何支持现实生活中的用例

多功能分割：SAM 的提示界面允许用户使用各种提示指定分割任务，使其能够适应不同的现实场景。
例如，SAM 的多功能分割功能可应用于环境监测，它可以分析生态系统、检测森林砍伐、跟踪野生动物和评估土地利用。对于湿地监测，SAM 可以分割水生植被和栖息地。在森林砍伐检测中，它可以识别森林损失的区域。在野生动物跟踪中，它可以帮助分析动物行为，在土地利用分析中，它可以对航空图像中的土地利用进行分类。 SAM 的适应性为保护、城市规划和环境研究提供了宝贵的见解。
可以要求 SAM 分割图像中的所有内容，也可以为其提供边界框来分割图像中的特定对象，如下面的 COCO 数据集示例所示。

零样本传输：SAM 无需额外训练即可泛化到新对象和图像域的能力（零样本传输）在现实应用中非常宝贵。用户可以“开箱即用”地将 SAM 应用到新的图像域，从而减少对特定任务模型的需求。
SAM 中的零样本迁移可以让电子商务平台轻松引入新的服装系列，从而简化时尚零售。 SAM 可以立即细分并呈现新的时尚单品，无需特定的模型训练，确保产品列表具有一致且专业的外观。这加速了对时尚潮流的适应，使在线购物体验更加有吸引力和高效。
实时交互：SAM 的高效架构可实现与模型的实时交互。这对于增强现实等用户需要即时反馈的应用程序或需要快速分段的内容创建任务至关重要。
多模态理解：SAM 的提示分割可以集成到更大的人工智能系统中，以实现更全面的多模态理解，例如解释网页上的文本和视觉内容。
高效的数据标注：SAM的数据引擎加速了大规模数据集的创建，减少了手动数据标注所需的时间和资源。这种好处也适用于从事自己的分割任务的研究人员和开发人员。
公平的数据收集：SAM 的数据集创建过程旨在更好地代表不同地理区域和人口群体，使其更加公平并适合涉及不同人群的现实世界应用。
内容创建和 AR/VR：SAM 的分段功能可以通过自动提取拼贴或视频编辑的对象来增强内容创建工具。在AR/VR中，它可以实现对象选择和变换，丰富用户体验。
科学研究：SAM 定位和跟踪视频中对象的能力可应用于科学研究，从监测自然事件到研究视频中的现象，提供见解并推进各个领域的发展。

总体而言，SAM 的多功能性、适应性和实时功能使其成为解决不同行业和应用中现实生活中图像分割挑战的宝贵工具。