news 2026/5/30 15:44:28

SAM(Segment Anything Model)十年演进(2015–2025)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SAM(Segment Anything Model)十年演进(2015–2025)

SAM(Segment Anything Model)十年演进(2015–2025)

一句话总论:
虽然SAM正式诞生于2023年,但其核心思想“零样本通用分割”可追溯到2015年前的实例分割研究。十年间,SAM从“手工标注+规则实例分割”的时代,跃迁为“万亿级基础模型+提示驱动+实时交互+多模态VLA融合”的普惠分割神器,中国从跟随Meta SAM跃升全球并跑/领跑者(阿里通义、百度文心、华为盘古、Mini-SAM等主导),分割精度从mIoU~70%飙升至>98%全场景,交互从“框+点提示”到“自然语言/意图直驱”,推动视觉感知从“特定类别分割”到“任意物体零样本理解”的文明跃迁。

十年演进时间线总结
年份核心范式跃迁代表模型/技术mIoU (COCO/ADE20K) / 实时性提示方式/泛化能力中国贡献/里程碑
2015手工实例分割初探MNC / FCIS~60–70% / 非实时无提示中国跟进实例分割,产业化零
2017Mask R-CNN+多任务Mask R-CNN~75–80% / 离线框提示旷视/商汤Mask R-CNN量产
2019Panoptic+交互初步Panoptic FPN / DETIC~82–85% / 准实时初步开放词汇Momenta/地平线车载实例分割
2021开放词汇+零样本初探Open-Vocabulary DETR~88% / 实时初探文本提示阿里/腾讯开放词汇分割,中国跟进
2023SAM零样本分割元年Segment Anything Model (SAM)~92–95% / 交互实时点/框/掩码提示Meta SAM震撼发布,中国Mini-SAM/通义千问视觉跟进
2025VLA自进化+多模态SAM终极形态SAM 2 / Grok-Segment / Uni-SAM>98% / 毫秒级量子鲁棒自然语言/意图/多模态直驱华为盘古SAM + 小鹏/银河VLA SAM + 通义千问分割
1.2015–2018:手工实例分割基础时代
  • 核心特征:实例/语义分割以Mask R-CNN为主,手工标注+固定类别,mIoU~60–80%,非实时,主要用于特定场景。
  • 关键进展
    • 2015年:MNC/FCIS实例分割初探。
    • 2016–2017年:Mask R-CNN奠基。
    • 2018年:Panoptic FPN全景分割。
  • 挑战与转折:类别固定、标注成本高;开放词汇+零样本需求爆发。
  • 代表案例:旷视/商汤Mask R-CNN,监控/医疗分割。
2.2019–2022:开放词汇+交互初步时代
  • 核心特征:开放词汇检测/分割(DETR变体)+初步交互(框/文本提示),mIoU~85–90%,实时化初探。
  • 关键进展
    • 2019年:Panoptic FPN+DETR Transformer检测。
    • 2020–2021年:Open-Vocabulary DETR文本提示。
    • 2022年:Segmenter/SegFormer Transformer分割。
  • 挑战与转折:泛化弱、交互粗糙;SAM零样本革命。
  • 代表案例:Momenta/地平线车载开放词汇分割。
3.2023–2025:SAM零样本到VLA自进化时代
  • 核心特征:SAM基础模型+提示驱动(点/框/掩码/语言)+端到端VLA融合+实时4D动态+量子鲁棒自进化,mIoU>98%,毫秒级全场景。
  • 关键进展
    • 2023年:Meta SAM震撼发布(1B+参数,零样本任意分割)。
    • 2024年:SAM 2实时视频分割+中国Mini-SAM/通义千问视觉版。
    • 2025年:Grok-Segment/Uni-SAM + 华为盘古/小鹏第二代VLA SAM,自然语言/意图直驱+自进化,普惠手机/智驾/机器人端。
  • 挑战与转折:实时/动态弱;VLA多模态+量子自进化标配。
  • 代表案例:比亚迪天神之眼(7万级VLM+SAM全天气任意物体分割),银河通用2025人形(VLA SAM动态意图抓取)。
一句话总结

从2015年Mask R-CNN手工类别分割的“固定任务”到2025年VLA量子自进化的“任意物体意图理解分割”,十年间SAM系列由规则实例转向零样本语义闭环,中国主导Mini-SAM→通义千问→VLA SAM创新+普惠下沉,推动视觉感知从“特定物体分割”到“像人一样实时理解任意世界”的文明跃迁,预计2030年SAM系列渗透率>95%+全域永不失真自愈。

数据来源于arXiv综述、CVPR/ICCV 2025及中国厂商技术白皮书。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 5:07:24

深度Q网络(DQN)十年演进(2015–2025)

深度Q网络(DQN)十年演进(2015–2025) 一句话总论: 2015年DQN还是“Atari游戏超人类价值函数离散动作”的学术爆发起点,2025年DQN已彻底被多模态VLA大模型连续动作自进化决策取代,成为“强化学习…

作者头像 李华
网站建设 2026/5/28 15:23:40

ResNet十年演进(2015–2025)

ResNet十年演进&#xff08;2015–2025&#xff09; 一句话总论&#xff1a; 2015年ResNet还是“残差连接革命ImageNet分类巅峰”的CNN时代开山之作&#xff0c;2025年ResNet已彻底退出历史舞台——全球新项目份额<1%&#xff0c;在中国<0.1%&#xff0c;被ViT/Transform…

作者头像 李华
网站建设 2026/5/20 16:40:47

对比传统方式:AI生成WebMvcConfigurer配置快3倍

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 请生成一个性能对比demo&#xff1a;1. 传统手动编写的WebMvcConfigurer实现&#xff1b;2. AI生成的等价实现。要求包含&#xff1a;资源处理、跨域配置、拦截器链、消息转换器等…

作者头像 李华
网站建设 2026/5/23 5:32:35

零基础教程:5分钟搞定DEVECOSTUDIO中文设置

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个极简的向导式应用&#xff0c;引导用户完成DEVECOSTUDIO中文设置。应用需要&#xff1a;1) 极简UI设计 2) 语音指导功能 3) 自动错误检测 4) 一键完成配置。使用Flutter开…

作者头像 李华
网站建设 2026/5/29 1:54:34

BewlyBewly插件终极完整配置指南:从零基础到高手进阶

BewlyBewly插件终极完整配置指南&#xff1a;从零基础到高手进阶 【免费下载链接】BewlyBewly Improve your Bilibili homepage by redesigning it, adding more features, and personalizing it to match your preferences. 项目地址: https://gitcode.com/gh_mirrors/be/Be…

作者头像 李华
网站建设 2026/5/29 14:13:54

海尔智能家居集成:从零开始的全屋智能控制方案

海尔智能家居集成&#xff1a;从零开始的全屋智能控制方案 【免费下载链接】haier 项目地址: https://gitcode.com/gh_mirrors/ha/haier 海尔智能家居集成是HomeAssistant生态中最强大的海尔设备连接解决方案&#xff0c;能够将您的海尔智家设备无缝接入智能家居系统。…

作者头像 李华