论文名称:HS-FPN: High Frequency and Spatial Perception FPN for Tiny Object Detection
论文原文 (Paper):https://arxiv.org/abs/2412.10116
GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0
目录
- 1. 核心思想
- 2. 背景与动机
- 2.1 背景与痛点
- 2.2 动机图解分析
- 3. 主要创新点
- 4. 方法细节(核心干货)
- 4.1 整体网络架构
- 4.2 核心模块 A:高频感知模块 (HFP)
- 4.3 核心模块 B:空间依赖感知模块 (SDP)
- 4.4 理念与机制总结
- 5. 即插即用模块的作用
- 6. 实验分析
- 7. 获取即插即用代码关注 【AI即插即用】
1. 核心思想
本文针对小目标检测(Tiny Object Detection, TOD)中特征微弱且易受干扰的问题,提出了一种新型的HS-FPN。其核心论点是:小目标的特征在频域上主要表现为高频分量。因此,作者设计了高频感知模块(HFP),利用高通滤波器在频域提取小目标线索以增强特征;同时设计了空间依赖感知模块(SDP),通过像素级交互来弥补 FPN 在上采样过程中丢失的空间位置信息,从而显著提升了小目标的检测性能。
2. 背景与动机
2.1 背景与痛点
虽然 FPN 是目标检测的标配,但在处理微小目标(例如 AI-TOD 定义的小于 16x16 像素)时,面临三大挑战:
- 可用特征极其有限:经过主干网络多次下采样,小目标在深层特征图中可能仅剩不到 1 个像素,信息丢失严重。
- 缺乏针对性关注:标准 FPN 对所有尺度的特征一视同仁,并未针对弱势的小目标进行特征增强,导致小目标容易淹没在背景噪声中。
- 缺乏空间感知能力:FPN 自顶向下的路径通过上采样与横向连接相加,容易导致特征不对齐(Misalignment),缺乏对小目标周围空间上下文的精细感知。
2.2 动机图解分析
看图说话:
- 现象:作者利用离散余弦变换(DCT)分析图像,发现低频分量通常代表大面积的平滑背景,而小目标则表现为边缘和细节(高频分量)。
- 分析:如Figure 1所示,当作者逐步滤除图像的低频分量(从 (b) 到 (d)),目标的信杂比(SCR,Signal to Clutter Ratio)显著上升(从 0.99 提升至 1.57)。这直观地证明了:适度去除低频背景干扰,能让小目标在特征图中“脱颖而出”。
- 结论:这直接启发了本文的核心模块HFP——即在特征融合前,先在频域滤除低频噪声,生成高频响应掩码来激活小目标特征。
3. 主要创新点
- 高频感知模块 (HFP):利用 DCT 和可学习的高通滤波器生成高频响应图,并将其分解为空间和通道注意力掩码,定向增强小目标特征。
- 空间依赖感知模块 (SDP):一种改进的像素级 Cross-Attention 机制,用于在 FPN 的横向连接中捕捉底层特征与上层特征之间的空间依赖关系,解决特征不对齐问题。
- HS-FPN 架构:将 HFP 和 SDP 无缝集成到 FPN 的横向连接中,形成了一个针对 TOD 任务的高性能特征金字塔网络,且易于嵌入现有检测器(如 Faster R-CNN, Cascade R-CNN)。
4. 方法细节(核心干货)
4.1 整体网络架构
数据流解析:
- Input:ResNet 主干网络输出的四个阶段特征图{ C 2 , C 3 , C 4 , C 5 } \{C_2, C_3, C_4, C_5\}{C2,C3,C4,C5}。
- Top-Down Pathway:与标准 FPN 类似,高层特征P i + 1 P_{i+1}Pi+1经过上采样后与低层特征融合。
- Lateral Connection (横向连接 - 关键改进):
- 传统的 FPN 是直接1 × 1 1\times11×1卷积相加。
- HS-FPN 的路径:
- 底层特征C i C_iCi首先输入HFP 模块,利用频域信息进行特征增强。
- 增强后的C i C_iCi与上层特征P i + 1 P_{i+1}Pi+1同时输入SDP 模块,进行空间对齐和上下文融合。
- 最终输出融合后的特征P i P_iPi。
- Output:输出增强后的多尺度特征金字塔{ P 2 , P 3 , P 4 , P 5 } \{P_2, P_3, P_4, P_5\}{P2,P3,P4,P5}用于后续检测头。
4.2 核心模块 A:高频感知模块 (HFP)
设计拆解:
- 高频特征生成器 (High Frequency Generator):
- 输入特征C i C_iCi经过DCT变换到频域。
- 使用预定义的高通滤波器 (High-Pass Filter)(见论文 Figure 4,通过参数α \alphaα控制滤波范围)滤除左上角的低频分量。
- 经过iDCT逆变换回空域,得到高频响应图F i F_iFi。此时小目标区域已被高亮。
- 通道路径 (Channel Path, CP):
- 利用F i F_iFi计算通道注意力。为了抗干扰,先在F i F_iFi上做 GAP 和 GMP(全局平均/最大池化),再通过 MLP 生成通道权重u C P u^{CP}uCP。
- 目的:识别哪些通道包含更多的小目标高频信息,并予以加权。
- 空间路径 (Spatial Path, SP):
- 直接对高频响应F i F_iFi进行1 × 1 1\times11×1卷积,生成空间掩码u S P u^{SP}uSP。
- 目的:在空间位置上直接抑制背景(低频区域),激活目标(高频区域)。
- 融合:将 CP 和 SP 的权重分别作用于原始特征C i C_iCi,最后相加输出。
4.3 核心模块 B:空间依赖感知模块 (SDP)
设计拆解:
- 输入:当前层特征C i C_iCi(Query 源)和上层上采样后的特征P i + 1 u P_{i+1}^uPi+1u(Key/Value 源)。
- 机制:类似于 Vision Transformer,但针对 FPN 做了特定修改。
- 将特征图划分为多个B l o c k BlockBlock。
- Pixel-level Cross Attention:在每个对应的 Block 内部,计算C i C_iCi中的像素与P i + 1 u P_{i+1}^uPi+1u中像素的相似度矩阵。
- 与 ViT 的区别:ViT 计算的是 Patch 之间的相似度(全局),而 SDP 计算的是 Patch 内部像素点之间的相似度(局部)。
- 目的:FPN 的简单相加忽略了上采样带来的像素偏差。SDP 允许底层像素利用注意力机制,从上层特征的局部邻域中“搜索”并聚合最相关的语义信息,从而实现精确的特征对齐。
4.4 理念与机制总结
HS-FPN 的核心理念是**“先增强,后对齐”**:
- 频域先验:利用图像处理中的先验知识(小目标=高频),通过 HFP 模块在特征提取初期就强行“点亮”微弱的小目标像素,防止其在后续计算中丢失。
- 空间矫正:利用 SDP 模块的 Attention 机制,建立跨层级的像素依赖。这不仅解决了 FPN 特征不对齐的问题,还让小目标能够利用周围的上下文信息来辅助识别(例如:看到“路”有助于识别“车”)。
5. 即插即用模块的作用
本论文提出的模块具有很强的通用性,适用于以下场景:
- HFP (高频感知模块):
- 适用场景:任何小目标检测、红外弱小目标检测或遥感图像检测任务。
- 用法:可以插入到 Backbone 的每个 Stage 输出之后,或者 FPN 的输入端,作为一种“特征预处理/增强”手段,无需重新训练 Backbone。
- SDP (空间依赖感知模块):
- 适用场景:需要多尺度特征融合的任务(如分割、检测)。
- 用法:可以替代 U-Net 或 FPN 中的
Add或Concat操作,用于解决上采样带来的特征不对齐问题,提升边缘像素的分类精度。
6. 实验分析
- SOTA 性能:
- 在 AI-TOD 数据集上,基于 ResNet50 的 Faster R-CNN 搭载 HS-FPN 后,AP 从 18.3 提升至20.3(+2.0 AP)。
- Cascade R-CNN 提升更为明显,从 20.2 提升至23.6(+3.4 AP),这在极难的 AI-TOD 数据集上是非常显著的涨点。
- 消融实验:
- 仅使用 HFP 可带来 +2.2 AP,仅使用 SDP 可带来 +1.1 AP,两者结合效果最佳。
- 可视化分析(参考论文 Figure 7):经过 HFP 处理后,背景噪声明显减少,目标区域响应变强;加入 SDP 后,特征边缘更加清晰。
- 计算开销:
- 虽然引入了 Attention 和 DCT,但由于 SDP 是基于局部 Block 计算的,且 HFP 主要是线性变换,整体参数量和 FLOPs 增加在可接受范围内(Params 增加约 4%),换取了显著的精度提升。
HS-FPN 是一篇非常扎实的工作,它没有盲目堆叠复杂的 Transformer,而是从**信号处理(频域)**的本质出发解决小目标特征微弱的问题,设计非常优雅。对于做小目标检测、遥感图像处理的同学来说,HFP 模块是一个非常值得尝试的即插即用 Trick。
到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。