news 2026/5/6 10:06:37

【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割

文章:CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance

代码:https://coralsrt.hkustvgd.com/

单位:香港中文大学


一、问题背景:珊瑚的"任性生长"难倒AI

珊瑚的生长受基因、环境变化、生物竞争等多重因素影响,形状、纹理和分布极具随机性,没有固定的结构规律。相比鱼类等可通过局部特征推断整体的生物,珊瑚即使部分遮挡也无法预判完整形态,导致 segmentation 难度陡增。

现有方法存在明显短板:传统数据驱动模型依赖海量标注数据,耗费大量人力和专业知识;基于超像素的稀疏到密集转换方法难以捕捉高层语义;SAM等提示性分割模型常出现"漏标"或"误标"问题,无法适配珊瑚的无规则生长特性。这些问题严重限制了珊瑚礁监测的规模化应用。

二、方法创新:CoralSRT 用自监督校正破解痛点

研究团队提出的 CoralSRT(珊瑚自监督校正训练)方法,以"段"为核心构建分割逻辑,无需额外标注、不微调基础模型,就能实现高效语义分割。

其核心创新在于两点:一是建模段内亲和性,通过SAM 2等基础模型生成密集掩码,迫使同一段内的特征向中心值(均值或中位数)靠拢,强化珊瑚的自我相似性特征;二是借助基础模型的大规模预训练优势,通过特征聚类实现跨段亲和性建模,无需人工定义语义标签。

整个过程通过自监督校正模块 Rec(·) 完成特征优化,仅需利用基础模型已有的特征信息,就能降低珊瑚特征的随机性,让 label 传播更高效。该方法还具有任务和模型无关性,可灵活适配不同基础模型和应用场景。

三、实验结果:多项指标刷新性能上限

研究团队构建了包含264万张无标签图像的 CoralWorld 数据集,以及覆盖10个国家、1109张图像的多场景测试集,从多维度验证效果:

  1. 稀疏到密集转换:在100个标注点下,CoralSRT 结合 CoralSCOP 基础模型,mIoU 达到74.32%,远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%;

  2. 零样本分割:在 Mosaics UCSD 数据集上,50个标注点时 mIoU 达44.66%,优于 HIL、FeatUp 等专业算法;

  3. 语义分割对比:无需训练微调的 CoralSRT‡,在100个标注点下 mIoU 达75.29%,接近甚至超越 DeeplabV3、Mask2Former 等监督学习模型;

  4. 数据适应性:即使使用 COCO-Stuff 通用数据集优化,也能实现有效分割,证明其不依赖领域特定数据。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  • 零额外成本:无需人工标注、不微调基础模型,大幅降低数据收集和模型优化门槛;

  • 高灵活性:支持自定义标签集,适配不同区域的珊瑚研究需求,满足生态探索的本质目的;

  • 强泛化性:不仅适用于珊瑚礁,还能迁移到植物、细胞、生物污垢等无固定结构的分割场景;

  • 高效易实现:目标特征制备速度比同类方法 DVT 快109倍,核心代码修改量少。

现存局限

  • 无法自动生成独立珊瑚掩码,相比 CoralSRT、SAM 系列,在个体珊瑚区分上存在不足;

  • 特征校正效果依赖预训练数据的质量和覆盖度,极端场景下性能可能受影响;

  • 稀疏点选择仍会对结果产生一定影响,虽已优化但未完全消除。

五、一句话总结

CoralSRT 通过自监督特征校正,打破了珊瑚礁语义分割对海量标注和领域数据的依赖,为无固定结构目标的分割提供了高效解决方案,也为生态监测的规模化应用奠定了技术基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 11:17:04

亲测PETRV2-BEV模型:自动驾驶3D目标检测实战体验分享

亲测PETRV2-BEV模型:自动驾驶3D目标检测实战体验分享 随着自动驾驶技术的快速发展,基于多摄像头图像的3D感知成为研究热点。PETRv2作为旷视科技推出的统一框架,在3D目标检测与BEV(Birds Eye View)分割任务中表现出色。…

作者头像 李华
网站建设 2026/5/3 9:58:18

verl性能基准测试:标准化评估部署流程

verl性能基准测试:标准化评估部署流程 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习(RL)训练框架,专为大型语言模型(LLMs)的后训练设计。它由字节跳动火山引擎团队开源,是 …

作者头像 李华
网站建设 2026/5/1 8:13:37

Altium Designer生成Gerber文件从零实现教程

从零搞定Altium Designer导出Gerber文件:工程师实战全指南你有没有遇到过这种情况?花了几周时间精心设计的PCB,布线完美、DRC无报错,信心满满地导出Gerber发给厂家——结果三天后收到回复:“阻焊层反了”、“内电层没连…

作者头像 李华
网站建设 2026/5/3 12:06:41

Speech Seaco Paraformer ASR语言学习工具开发:口语练习反馈系统

Speech Seaco Paraformer ASR语言学习工具开发:口语练习反馈系统 1. 引言 随着人工智能技术在教育领域的深入应用,语言学习方式正在经历深刻变革。传统的口语练习依赖教师人工点评或简单录音回放,缺乏即时性、客观性和个性化反馈。为解决这…

作者头像 李华
网站建设 2026/5/1 0:53:46

如何将Synaptics驱动集成到自定义内核中?一文说清

如何让触控板“听话”?手把手教你把 Synaptics 驱动塞进自定义内核你有没有遇到过这样的情况:辛辛苦苦裁剪出一个轻量级 Linux 内核,刷进设备后却发现——触控板不动了?不是硬件坏了,也不是系统崩了,问题很…

作者头像 李华
网站建设 2026/5/5 3:45:15

Qwen2.5 vs 国产大模型对比:综合性能部署评测

Qwen2.5 vs 国产大模型对比:综合性能部署评测 1. 背景与评测目标 随着大语言模型在实际业务场景中的广泛应用,国产大模型的技术能力已进入快速迭代阶段。通义千问系列作为国内领先的开源模型家族,最新发布的 Qwen2.5 系列在多个维度实现了显…

作者头像 李华