news 2026/6/7 13:46:45

(论文速读)LCT:用于RGB-D突出物体检测的轻型跨模态变压器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(论文速读)LCT:用于RGB-D突出物体检测的轻型跨模态变压器

论文题目:Lightweight cross-modal transformer for RGB-D salient object detection(用于RGB-D突出物体检测的轻型跨模态变压器)

期刊:Computer Vision and Image Understanding (计算机视觉与图像理解)

摘要:最近,基于transformer的RGB-D显著物体检测(SOD)模型将性能提升到了一个新的水平。然而,它们的代价是消耗大量的资源,包括内存和功率,从而阻碍了它们的实际应用。为了解决这种情况,本文将介绍一种用于RGB-D SOD的新型轻型跨模变压器(LCT)。具体而言,LCT将首先采用中级特征融合结构,以轻量级Transformer为骨干,降低其参数和计算成本。然后,在变压器的帮助下,通过有效地从多模态输入图像中捕获跨模态和跨层次的互补信息来补偿性能下降。为此,将设计一个具有轻量级通道交叉注意块(LCCAB)的跨模态增强和融合模块(CEFM),以有效捕获跨模态互补信息,但成本更低。设计了一个双向多级特征交互模块(Bi-MFIM),该模块具有轻量级的空间交叉注意块(LSCAB),用于捕获交叉层次的互补上下文信息。利用CEFM和Bi-MFIM,可以很好地补偿由于参数缩减而导致的性能下降,从而提高性能。通过这样做,我们提出的模型只有2.8M参数,7.6G FLOPs,运行速度为66 FPS。此外,在多个基准数据集上的实验结果表明,我们提出的模型可以获得与其他模型相当甚至更好的结果。

代码地址:https://github.com/nexiakele/lightweight-cross-modalTransformer-LCT-for-RGB-D-SOD上发布。


轻量级跨模态Transformer:让RGB-D显著性检测飞起来

引言

想象一下,你正在开发一个智能机器人,需要让它快速识别场景中最重要的物体。RGB-D相机可以提供彩色和深度信息,但如何让模型既快又准地处理这些数据呢?今天要介绍的这篇来自西安电子科技大学和谢菲尔德大学的CVIU 2024论文,提出了一个令人惊艳的解决方案——轻量级跨模态Transformer(LCT)

背景:Transformer的双刃剑

近年来,Transformer在RGB-D显著性目标检测(SOD)领域大放异彩,性能远超传统CNN模型。但这一切都是有代价的:

  • 📊SwinNet:199.2M参数,124.7G FLOPs
  • 📊TriTransNet:139.6M参数,293.9G FLOPs
  • 🐌 运行速度:仅10 FPS左右

这样的模型在移动设备或车载计算机上根本无法实时运行!更糟的是,现有的轻量级RGB-D SOD模型几乎都基于CNN,Transformer的轻量级方案还是一片空白。

核心挑战:如何在减参的同时保持性能?

论文团队面临一个两难问题:

  • ❌ 简单减少参数 → 性能大幅下降
  • ❌ 保持性能 → 参数和计算量居高不下

他们的洞察是:性能下降可以通过更有效地捕获跨模态和跨层级互补信息来补偿

创新方案一:巧妙的结构设计

1. 中间层特征融合结构

传统双流结构需要两个大型特征提取器,而LCT采用了更聪明的策略:

传统双流: RGB图像 → 大型提取器 → 5层特征 ⎤ ⎦→ 多次融合 → 输出 深度图像 → 大型提取器 → 5层特征 ⎦ LCT中间层融合: RGB图像 → 小型提取器 → 3层特征 ⎤ ⎦→ 第3层融合 → 共享提取器 → 4-5层特征 → 输出 深度图像 → 小型提取器 → 3层特征 ⎦

优势

  • ✅ 只需要两个小型提取器 + 一个共享提取器
  • ✅ 只在一个层级进行跨模态融合
  • ✅ 参数量大幅减少

2. 轻量级骨干网络

采用MobileViT作为特征提取器,这是一个专为移动设备设计的高效Transformer。论文还验证了LightViT和EfficientFormer等其他轻量级Transformer的兼容性。

创新方案二:跨模态增强与融合模块(CEFM)

这是论文最精彩的部分之一!传统方法直接融合RGB和深度特征,但这会引入大量冗余信息。CEFM采用**"先增强,再融合"**的策略:

工作流程

  1. 双向增强

    • RGB特征从深度特征中"吸取"互补信息
    • 深度特征从RGB特征中"吸取"互补信息
  2. 融合增强特征

    • 将两个增强后的特征相加
    • 互补信息得到强化,冗余信息被抑制

轻量级通道交叉注意力块(LCCAB)

传统交叉注意力在空间维度计算,成本很高。LCCAB巧妙地在通道维度计算注意力:

# 伪代码示意 Q_c = Linear(Reshape(F_RGB)) # C1 × HW K_c = Linear(Reshape(F_Depth)) # C × HW # 通道维度的注意力 weights = Sigmoid(Linear(Q_c @ K_c.T / sqrt(C))) # C × 1 × 1 # 增强RGB特征 F_RGB_enhanced = F_RGB + weights * F_Depth

计算成本对比

  • 标准交叉注意力:C·HW(3C + HW) ≈ 14.7M(C=64, H=W=56)
  • LCCAB:C·HW(2C₁ + C) + C₁C² ≈ 0.25M(C₁=4)
  • 节省98%计算量!

创新方案三:双向多层级特征交互模块(Bi-MFIM)

现有方法通常密集聚合多层特征,但这会引入冗余信息。Bi-MFIM采用双向交互策略:

双向设计理念

从高到低方向

  • 高层特征(语义丰富)从低层特征提取细节信息
  • 第5层 → 从第4层学习 → 从第3层学习

从低到高方向

  • 低层特征(细节丰富)从高层特征提取语义信息
  • 第3层 → 从第4层学习 → 从第5层学习

轻量级空间交叉注意力块(LSCAB)

为了降低空间注意力的计算成本,LSCAB使用pooling降低查询特征的空间分辨率:

# 伪代码示意 Q_s = Linear(Reshape(Pooling(F_high))) # H1W1 × C (H1=4) K_s = Linear(Reshape(F_low)) # HW × C (H=56) # 空间注意力权重 weights = Reshape(Sigmoid(Linear(Q_s @ K_s.T / sqrt(C)))) # 1 × H × W # 特征增强 F_enhanced = F_high + weights * F_low

计算成本对比

  • 标准交叉注意力:C·HW(3C + 2HW) ≈ 26.2M
  • LSCAB:C²(H₁W₁ + HW) + (C+1)(H₁W₁HW) ≈ 0.7M
  • 节省97%计算量!

实验结果

模型效率令人惊叹

模型参数量FLOPs速度
SwinNet199.2M124.7G10 FPS
TriTransNet139.6M293.9G9.7 FPS
LCT2.8M7.6G66 FPS
  • 📉 参数量仅为SwinNet的1.4%
  • 📉 FLOPs仅为SwinNet的4.5%
  • 🚀 速度是SwinNet的6.6倍

性能不输重量级模型

在NJU2K数据集上:

  • F-measure: 0.910(超越VST的0.901)
  • MAE: 0.033(优于大多数CNN模型)
  • 与重量级Transformer模型性能相当

在其他三个数据集(NLPR、STEREO、SIP)上也取得了竞争性甚至更优的结果!

可视化结果

论文展示的定性结果非常convincing:

  • ✅ 小目标检测准确
  • ✅ 大目标边界清晰
  • ✅ 复杂背景下鲁棒
  • ✅ 多目标场景表现优异

消融实验:每个模块都至关重要

CEFM的贡献

配置F-measureMAE
Baseline0.8810.0425
+ CEFM0.8970.0370
改进+1.6%-13%

Bi-MFIM的贡献

配置F-measureMAE
Baseline0.8810.0425
+ Bi-MFIM0.9040.0357
改进+2.3%-16%

两者结合效果最佳

配置F-measureMAE
Baseline0.8810.0425
+ CEFM + Bi-MFIM0.9100.0326
改进+2.9%-23%

融合位置的选择

论文测试了在不同层级进行跨模态融合的效果,发现在第3层融合(中间层)达到最佳平衡:

  • 太早融合(第1-2层):性能不足
  • 太晚融合(第4-5层):参数增多但性能提升有限
  • 第3层融合:性能与效率的最佳平衡点

技术亮点总结

1. 设计哲学的转变

  • ❌ 传统思路:密集融合、大力出奇迹
  • ✅ LCT思路:精准交互、事半功倍

2. 注意力机制的创新

  • LCCAB:通道维度注意力,节省98%计算

  • LSCAB:降维空间注意力,节省97%计算

3. 架构设计的智慧

  • 中间层融合:参数最优点
  • 双向交互:互补信息最大化

局限性与未来工作

论文诚实地指出了当前的局限:

  1. 计算复杂度仍有优化空间

    • 虽然参数少,但FLOPs相对其他轻量级模型仍较高
    • 某些耗时操作(如concatenation)影响速度
  2. 未来改进方向

    • 进一步简化网络结构
    • 减少耗时操作
    • 探索更高效的注意力机制

实践启示

这篇论文给我们的启示:

  1. 减参不一定牺牲性能

    • 关键在于如何更有效地利用信息
    • 精心设计的轻量模块可以弥补参数减少
  2. 注意力机制的维度选择很重要

    • 通道注意力 vs 空间注意力
    • 根据特征图尺寸灵活选择
  3. 交互胜过聚合

    • 双向特征交互比单向聚合更有效
    • 先增强再融合比直接融合更好
  4. 中间层融合是个好策略

    • 在轻量级模型设计中值得考虑
    • 兼顾低层细节和高层语义

结语

这篇论文为RGB-D显著性检测领域带来了一股清流——不是所有问题都需要用更大的模型来解决。通过巧妙的结构设计和高效的模块,LCT实现了:

  • 🎯2.8M参数:业界最小
  • 66 FPS:实时运行
  • 🏆竞争性能:媲美重量级模型

这不仅是技术上的创新,更是设计理念的突破。对于需要在资源受限设备上部署RGB-D视觉算法的场景(如移动机器人、智能手机、车载系统),LCT提供了一个极具实用价值的解决方案。

关键启发:有时候,"少即是多"——用更少的参数做更多的事,关键在于找到信息利用的最优策略。

如果你对轻量级深度学习模型设计感兴趣,这篇论文绝对值得深入研究!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 2:46:20

KindEditor处理ppt幻灯片图文混排转存站群平台

《Word一键转存历险记:一个穷学生的CMS升级之路》 寻找解决方案的奇幻旅程 第一天:初探Word粘贴黑科技 作为一名福建某高校的计科大三狗(啊不是,学生),我正在给我的CMS新闻管理系统做升级。需求很简单&a…

作者头像 李华
网站建设 2026/6/3 13:44:52

LLVM架构和V8引擎的详细工作阶段

计划用两个对比明显的表格分别展示LLVM和V8的工作流程,让用户清晰地看到LLVM作为"静态编译基础设施"与V8作为"动态执行引擎"的本质区别。然后在表格后详细解释每个阶段的核心机制和设计原理。 为了让你清晰地理解,这里把LLVM&#x…

作者头像 李华
网站建设 2026/6/6 16:46:24

KindEditor导入pdf文件识别图表生成代码片段

当Word一键粘贴遇上680元预算:一个前端程序员的奇幻漂流 各位同行好,我是北京某不知名前端码农老王(头发比Vue2升Vue3的迁移成本还高的那种)。最近接了个CMS企业官网项目,客户要求在KindEditor里实现Office全家桶导入…

作者头像 李华
网站建设 2026/5/30 14:59:31

vue和springboot框架开发的二手旧物回收商城系统的设计与实现_h4v63f89

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vuespringboot_h4v63f89 框架开发的二手旧物回收商…

作者头像 李华
网站建设 2026/5/29 16:41:00

JavaScript如何利用JQuery实现大文件上传的日志记录?

大文件传输解决方案建议书 一、需求分析与技术挑战 作为福建IT行业软件公司项目负责人,针对贵司提出的大文件传输需求,我进行了全面分析,发现以下几个核心挑战: 超大文件传输稳定性:单文件100G的传输及断点续传文件…

作者头像 李华
网站建设 2026/6/2 3:31:36

多策略混合改进麻雀搜索算法:探索优化新境界

多策略混合改进改进麻雀搜索算法 下面性能图展现了23种的其中8个测试函数,23个标准测试函数全部都有 改进点:附带参考文献来源 1、sin混沌映射进行种群初始化 2、采用动态自适应权重优化发现者位置。 3、柯西变异 发挥柯西算子的扰动能力,提高…

作者头像 李华