news 2026/3/26 17:04:33

YOLO26改进 - 采样 | ICCV 顶会技术:WaveletPool 小波池化强化采样,保留小目标细节

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
YOLO26改进 - 采样 | ICCV 顶会技术:WaveletPool 小波池化强化采样,保留小目标细节

前言

本文介绍了基于小波变换的池化方法——Wavelet Pooling,作为传统最大池化与平均池化的有效替代方案。该方法通过两级小波分解丢弃高频子带,保留更具代表性的低频特征,从而在减少信息丢失的同时提升模型的正则化能力。我们将 Wavelet Pool 和 UnPool 成功集成进 YOLO26,替代原有的下采样与上采样模块,实现更高效的特征提取与恢复。实验证明,YOLO26-WaveletPool 在多个分类与检测任务中均取得优异表现,展现了小波池化在深度学习中的广泛应用前景。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

文章目录

  • 前言
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理:
      • **小波变换的基本原理**
      • **论文的方法**
  • 核心代码
  • YOLO26引入代码
  • tasks注册
    • 步骤1:导包:
    • 步骤2
  • 配置yolo26-WaveletPool.yaml
  • 实验
    • 脚本
    • 结果

介绍

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)持续推动着二维和三维图像分类及目标识别技术的发展。然而,为了维持这一快速进展,有必要对神经网络中的基础构件进行持续的评估与改进。当前主流的网络正则化方法大多侧重于卷积操作本身,而对池化层的设计选择关注不足。

为此,我们提出了一种新的池化策略——小波池化(Wavelet Pooling),作为传统邻域池化方法(如最大池化和平均池化)的有效替代方案。该方法通过将特征分解为多层小波子带,并舍弃第一层级的高频子带来实现下采样,从而有效降低特征维度。与最大池化中常见的过拟合问题不同,小波池化在降维过程中保留了更多结构信息,具备更强的泛化能力。此外,相比于基于固定邻域的池化方式,小波池化在结构上实现了更紧凑、高效的特征压缩。

我们在四个标准图像分类数据集上进行了系统实验,结果表明:所提出的小波池化方法在性能上显著优于或与最大池化、平均池化、混合池化以及随机池化等主流方法相当,验证了其作为通用池化策略的潜力。

文章链接

论文地址:论文地址

代码地址:代码地址

论文地址:论文地址

基本原理:

首先,池化是一种通过舍弃信息实现正则化效果的操作。然而,传统的池化方法存在一些不足:

  • Max pooling:当重要特征的幅度值低于不重要特征时,重要特征会被忽略。
  • Average pooling:同时接纳幅值大和幅值小的特征,容易稀释关键特征。

为了解决这些问题,该论文提出基于小波变换的池化操作,具体思路如下:


小波变换的基本原理

小波变换可将输入特征图划分为低频子带(LL)和高频子带(LH、HL、HH)。其数学公式为:

  • 一级小波变换:
    L L 1 , L H 1 , H L 1 , H H 1 = D W T ( I ) LL1, LH1, HL1, HH1 = DWT(I)LL1,LH1,HL1,HH1=DWT(I)
    逆变换:
    I = I D W T ( L L 1 , L H 1 , H L 1 , H H 1 ) I = IDWT(LL1, LH1, HL1, HH1)I=IDWT(LL1,LH1,HL1,HH1)

  • 二级小波变换:
    L L 2 , L H 2 , H L 2 , H H 2 = D W T ( L L 1 ) LL2, LH2, HL2, HH2 = DWT(LL1)LL2,LH2,HL2,HH2=DWT(LL1)
    逆变换:
    L L 1 = I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) LL1 = IDWT(LL2, LH2, HL2, HH2)LL1=IDWT(LL2,LH2,HL2,HH2)

小波变换通过下采样将特征图尺寸缩小一半,逆变换可完美重建原始图像。


论文的方法

该论文方法流程如下:

  1. 对输入图像I II进行两次小波变换,得到:
    L L 2 , ( L H 2 , H L 2 , H H 2 ) , ( L H 1 , H L 1 , H H 1 ) = D W T ( D W T ( I ) ) LL2, (LH2, HL2, HH2), (LH1, HL1, HH1) = DWT(DWT(I))LL2,(LH2,HL2,HH2),(LH1,HL1,HH1)=DWT(DWT(I))
  2. 舍弃最高频子带( L H 1 , H L 1 , H H 1 ) (LH1, HL1, HH1)(LH1,HL1,HH1),保留低频子带( L L 2 , L H 2 , H L 2 , H H 2 ) (LL2, LH2, HL2, HH2)(LL2,LH2,HL2,HH2)
  3. 对保留的二级小波系数进行逆变换,重建池化后的图像:
    I ′ = I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) I' = IDWT(LL2, LH2, HL2, HH2)I=IDWT(LL2,LH2,HL2,HH2)

核心代码

classWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=x.shape[1]filters=torch.cat([self.weight,]*C,dim=0)y=F.conv2d(x,filters,groups=C,stride=2)returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=torch.floor_divide(x.shape[1],4)filters=torch.cat([self.weight,]*C,dim=0)y=F.conv_transpose2d(x,filters,groups=C,stride=2)returny

YOLO26引入代码

在根目录下的ultralytics/nn/目录,新建一个sample目录,然后新建一个以WaveletPool为文件名的py文件, 把代码拷贝进去。

importtorchfromtorchimportnnasnnimporttorch.nn.functionalasFimportnumpyasnpclassWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=x.shape[1]filters=torch.cat([self.weight,]*C,dim=0)y=F.conv2d(x,filters,groups=C,stride=2)returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=torch.floor_divide(x.shape[1],4)filters=torch.cat([self.weight,]*C,dim=0)y=F.conv_transpose2d(x,filters,groups=C,stride=2)returny

tasks注册

ultralytics/nn/tasks.py中进行如下操作:

步骤1:导包:

fromultralytics.nn.sample.WaveletPoolimportWaveletPool,WaveletUnPool

步骤2

修改def parse_model(d, ch, verbose=True):
只需要添加截图中标明的,其他没有的模块不用添加

elifmisWaveletPool:c2=ch[f]*4elifmisWaveletUnPool:c2=ch[f]//4

配置yolo26-WaveletPool.yaml

ultralytics/cfg/models/26/yolo26-WaveletPool.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license# Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs# Model docs: https://docs.ultralytics.com/models/yolo26# Task docs: https://docs.ultralytics.com/tasks/detect# Parametersnc:80# number of classesend2end:True# whether to use end-to-end modereg_max:1# DFL binsscales:# model compound scaling constants, i.e. 'model=yolo26n.yaml' will call yolo26.yaml with scale 'n'# [depth, width, max_channels]n:[0.50,0.25,1024]# summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients, 6.1 GFLOPss:[0.50,0.50,1024]# summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients, 22.8 GFLOPsm:[0.50,1.00,512]# summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients, 75.4 GFLOPsl:[1.00,1.00,512]# summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients, 93.8 GFLOPsx:[1.00,1.50,512]# summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients, 209.5 GFLOPs# YOLO26n backbonebackbone:# [from, repeats, module, args]-[-1,1,Conv,[64,3,2]]# 0-P1/2-[-1,1,WaveletPool,[]]# 1-P2/4-[-1,2,C3k2,[256,False,0.25]]-[-1,1,WaveletPool,[]]# 3-P3/8-[-1,2,C3k2,[512,False,0.25]]-[-1,1,WaveletPool,[]]# 5-P4/16-[-1,2,C3k2,[512,True]]-[-1,1,WaveletPool,[]]# 5-P4/16-[-1,2,C3k2,[1024,True]]-[-1,1,SPPF,[1024,5,3,True]]# 9-[-1,2,C2PSA,[1024]]# 10# YOLO26n headhead:-[-1,1,WaveletUnPool,[]]-[[-1,6],1,Concat,[1]]# cat backbone P4-[-1,2,C3k2,[512,True]]# 13-[-1,1,WaveletUnPool,[]]-[[-1,4],1,Concat,[1]]# cat backbone P3-[-1,2,C3k2,[256,True]]# 16 (P3/8-small)-[-1,1,Conv,[256,3,2]]-[[-1,13],1,Concat,[1]]# cat head P4-[-1,2,C3k2,[512,True]]# 19 (P4/16-medium)-[-1,1,Conv,[512,3,2]]-[[-1,10],1,Concat,[1]]# cat head P5-[-1,1,C3k2,[1024,True,0.5,True]]# 22 (P5/32-large)-[[16,19,22],1,Detect,[nc]]# Detect(P3, P4, P5)

实验

脚本

importwarnings warnings.filterwarnings('ignore')fromultralyticsimportYOLOif__name__=='__main__':# 修改为自己的配置文件地址model=YOLO('./ultralytics/cfg/models/26/yolo26-WaveletPool.yaml')# 修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,# 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='MuSGD',# optimizer='SGD',amp=False,project='runs/train',name='yolo26-WaveletPool',)

结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/20 5:11:59

Week 34: 量子深度学习入门:从 Neural ODE 到哈密顿量子演化

文章目录 Week 34: 量子深度学习入门:从 Neural ODE 到哈密顿量子演化摘要Abstract1. ResNet的连续极限1.1 从离散层到连续流1.2 伴随敏感度法 2. 非均匀时序建模2.1 场景2.2 ODE-RNN 3. 跨越边界:哈密顿量与量子可能性3.1 物理守恒与哈密顿网络 (HNN)3.…

作者头像 李华
网站建设 2026/3/25 14:38:11

Java中strip与trim()的区别

TOC Java中strip与trim()的区别 jdk11及以上版本,java的String支持strip()方法,那么原来的删除空白trim()与strip()的区别时什么? 区别 trim():仅处理字符串首尾的ASCII空白字符串(小于等于\u0020字符,…

作者头像 李华
网站建设 2026/3/24 16:57:33

软件测试—即时通讯测试方法

一、即时通讯实现方式 1.短轮询(Short Polling) 短轮询是一种客户端定期向服务器发送HTTP请求以检查是否有新数据的简单技术。无论服务器是否有新数据,客户端都会在固定的时间间隔后再次请求。 实现机制 客户端向服务器发送HTTP请求&#xff…

作者头像 李华
网站建设 2026/3/19 3:36:15

免费在线制作家庭小户型平面图的详细教程和设计模板大全

良功绘图网站 (https://www.lghuitu.com ) 一、引言:小户型平面图设计的核心价值与工具选择逻辑 在房价高企的当下,小户型住宅成为众多家庭的首选。如何在有限的空间内实现功能与美观的平衡,平面图设计是关键第一步。一份精准的小户型平面图…

作者头像 李华
网站建设 2026/3/23 14:52:43

小型工厂工艺流程图制作_在线设计装配/焊接/冲压工艺流程模板

良功绘图网站 (https://www.lghuitu.com ) 在小型工厂的日常运营中,工艺流程图是连接生产环节、规范操作标准、提升效率的核心工具。无论是装配、焊接还是冲压等核心生产流程,一份清晰、准确的工艺流程图能帮助工厂梳理工序逻辑、减少操作失误、降低沟通…

作者头像 李华