news 2026/1/15 21:53:03

探索面向不利条件语义分割的天气感知聚合与适应方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
探索面向不利条件语义分割的天气感知聚合与适应方法

摘要

https://openaccess.thecvf.com/content/ICCV2025/papers/Pan_Exploring_Weather-aware_Aggregation_and_Adaptation_for_Semantic_Segmentation_under_Adverse_ICCV_2025_paper.pdf
不利条件下的语义分割对于在具有挑战性的天气环境中实现可靠的视觉感知至关重要。这些极端场景引入了失真,例如低对比度和能见度降低,使传统的分割模型难以应对。此类条件下标记数据的稀缺性使得难以直接为这些环境训练模型。无监督域适应(UDA)已被提出作为一种解决方案,用于将知识从标记的源域(正常天气)转移到未标记的目标域(不利天气)。然而,现有方法面临重大挑战,特别是由于对天气的无感知性和特征异质性。许多模型未能考虑不同天气条件的独特特征,正常天气和不利天气图像之间的显著特征差异阻碍了有效的适应。在本文中,我们提出了一种新颖的天气感知聚合与适应网络,该网络利用特征知识实现天气同质化并增强场景感知。具体而言,我们引入幅度提示聚合,从傅里叶频域捕获指示不同天气条件的基本特征。此外,我们采用天气异质性适应来减轻域间异质性,从而实现不同环境下的特征同质化。在多个具有挑战性的基准数据集上的大量实验结果表明,我们的方法在不利条件下的语义分割方面取得了持续的改进。

1. 引言

语义分割涉及为图像中的每个像素分配类别标签[30, 35, 36, 38, 47],在各种现实应用中扮演着至关重要的角色,如自动驾驶[34, 37, 59]和监控[13, 32, 60]。然而,当面对不利天气条件时[22, 45],包括夜间、雾、雨和雪,分割模型的性能通常会显著下降。能见度和场景外观的恶化对传统分割算法构成了重大挑战,这些算法通常在正常天气条件下收集的数据集上训练。因此,探索一种在极端天气条件下进行有效语义解析的方法备受期待。

大量的研究工作已致力于不利天气条件下的语义分割[7, 26, 41-43, 51]。由于此类不利条件下标记数据的稀缺性,现有方法努力采用无监督域适应(UDA)范式,利用标记的正常天气数据和极端场景下无注释的图像来应对挑战[16, 44, 50, 53, 54]。Kerim等人[20]提出了一个基于DeepLabV3+[1]的双分支网络,通过整合合成的多场景数据集来增强极端天气条件下的训练知识。然而,在目标域中区分外观相似的类别,且仅有少量真实注释,这对域适应方法仍然是一个挑战。为了解决这个问题,MIC[18]引入了掩码图像一致性,利用目标域中的空间上下文关系作为额外线索来增强UDA的鲁棒性。这些方法的出现促进了对极端天气条件下场景的理解。

尽管取得了相当大的进展,在不同极端天气条件下区分和分析场景的任务仍然具有挑战性。无论是通过合成数据的辅助还是对空间上下文线索的探索,现有方法在多个极端场景中准确识别天气感知语义方面都存在困难。我们将这种跨天气范式的困境归因于两个固有问题(图1):(1) 天气特征无感知。不利天气下的风格特征,如照明条件和对比度,是造成不同场景之间天气差距的主要原因。尽管认识到了这一关键方面,现有工作[10, 58]通常采用低级增强或隐式学习来进行域间风格转换,未能充分利用天气属性表示。因此,设计一种策略来聚合不同条件下的天气感知场景知识值得探索。(2) 严重的跨天气异质性。早期工作[16, 18]倾向于将不同天气条件下的场景图像统一处理,忽略了不同天气类型之间的显著差异。天气条件之间的显著异质性带来了另一个挑战,源于天气现象的多样性和复杂性,这些现象引入了不同的视觉失真和场景变化。尽管一些方法[2, 11]试图解决这一挑战,但不同天气条件下特征的显著差异仍然构成相当大的困难。这些变化导致从正常天气学习的特征与在不利场景中有效解释所需的特征之间存在显著差距。解决如何利用特征知识实现天气同质化,以促进不利场景中的场景感知,是一个关键问题。

受上述讨论的启发,我们提出了一种天气感知聚合与适应网络(WA²Net),用于聚合天气感知属性知识并同质化域差异,包括幅度提示聚合和天气异质性适应。在幅度提示聚合中,为了获取天气感知特征知识,我们利用傅里叶变换的幅度操作来捕获指示不同天气条件的基本特征。这些幅度特征作为天气相关变化的判别线索。为了有效地将频率域中的关键特征知识聚合到天气自适应提示中,我们在提示库中预先添加一组可学习的提示,通过交叉注意力机制与频率特征交互,以获得天气感知提示。这些提示封装了各种天气条件的内在特征,为适应过程提供必要的指导。在天气异质性适应中,为了实现有效的语义解析的跨天气同质化,生成的天气感知提示被用于在调制后生成适应特征。然后,我们提出了一种新颖的同质化注意力机制,以获取不同天气条件下的同质化特征。该机制识别原始图像特征与适应特征之间的差异,将天气特征与有价值的目标信息解耦,从而过滤掉属性干扰。通过这种方式,我们的WA²Net实现了有效的天气感知知识聚合和鲁棒适应,确保在不利天气条件下语义分割性能的提升。

总之,我们的贡献可以总结如下:

  • 我们提出了一种新颖的天气感知聚合与适应网络,用于不利条件下的语义分割。我们的论文通过聚合和适应方式,探索了一种获取天气自适应知识并增强跨天气感知的实用方法。
  • 我们设计了幅度提示聚合,通过幅度提取从天气特征中获取天气感知提示,以及天气异质性适应,以继承天气感知知识并减轻跨天气异质性。
  • 在多个具有挑战性的基准数据集上的大量实验结果表明,我们的方法在不利条件下的语义分割方面取得了持续的改进。

2. 相关工作

2.1 不利条件下的语义分割

随着卷积神经网络(CNNs)[21]和变换器[52]的出现,语义分割领域[3, 4, 23, 27, 28, 39, 48]取得了显著进展。然而,传统的语义分割模型在雨、雾和夜间环境等不利条件下性能显著下降[45, 46, 61]。因此,不利条件下的语义分割旨在开发能够准确描绘具有挑战性环境中物体和区域的鲁棒模型。鉴于极端天气中标记数据的稀缺性,无监督域适应范式被用来增强模型在不同天气条件下的泛化能力,借助正常天气数据[24, 54]。Kerim等人[20]提出了一个双分支网络,并通过整合合成的多场景数据集扩展了极端天气条件下的训练数据集。然而,域适应方法由于难以在仅有少量真实注释的目标域中区分外观相似的类别而面临挑战。为了解决这个问题,MIC[18]引入了掩码图像一致性,利用目标域中的空间上下文关系作为额外线索来增强视觉感知。此外,为了减轻新场景中的知识遗忘,Yang等人[57]引入了自适应知识获取和天气条件组合的回放,旨在缓解不同场景中的模型遗忘问题。不同的是,我们努力解决天气无感知问题,通过聚合和适应方式利用天气感知提示。

2.2 提示学习

提示[29]将任务特定指令纳入输入文本中,以指导模型行为,在不重新训练的情况下提高性能,特别是在少样本学习中[9]。最近的工作将提示扩展到视觉任务,其中可学习提示能够在不调整所有参数的情况下实现适应[25]并提高分割泛化能力[14]。对于不利天气下的语义分割,天气自适应提示调制视觉嵌入以减轻照明和能见度变化等失真,无需大量微调即可增强鲁棒性。将天气特定知识整合到提示中可以改善跨不同条件的泛化能力,使模型在现实应用中更有效。

3. 方法

3.1 预备知识

通常,在无监督域适应领域[16,18][16,18][16,18],源域数据可以表示为Ds={Xs,Ys}D^{s}=\{X^{s},Y^{s}\}Ds={Xs,Ys},其中XsX^{s}XsYsY^{s}Ys分别表示对应的图像和标签空间。每个源域图像xks∈Xsx_{k}^{s}\in X^{s}xksXs与真实分割掩码yks∈Ysy_{k}^{s}\in Y^{s}yksYs相关联。类似地,令XtX^{t}Xt为目标域图像空间,YtY^{t}Yt为标签空间。然而,与源域不同,目标域无法访问标注的分割掩码。监督损失Ls\mathcal{L}^{s}Ls可以通过神经网络fμf_{\mu}fμ表示为:

Ls=1Ns∑k=1NsLce(fμ(xks),yks),\mathcal{L}^{s}=\frac{1}{N_{s}}\sum_{k=1}^{N_{s}}\mathcal{L}_{c e}\left(f_{\mu}\left(x_{k}^{s}\right),y_{k}^{s}\right),Ls=Ns1k=1NsLce(fμ(xks),yks),

其中NsN_{s}Ns表示源域的图像数量,Lce\mathcal{L}_{c e}Lce表示像素级交叉熵损失:

Lce(y^,y)=−∑h=1H∑w=1W∑c=1Cyhwclog⁡y^hwc.\mathcal{L}_{c e}(\hat{y},y)=-\sum_{h=1}^{H}\sum_{w=1}^{W}\sum_{c=1}^{C}y_{h w c}\log\hat{y}_{h w c}.Lce(y^,y)=h=1Hw=1Wc=1Cyhwclogy^hwc.

在源域DsD^{s}Ds上训练的模型在目标域DtD^{t}Dt上测试时通常会性能下降。因此,自训练范式通过教师网络gϕg_{\phi}gϕ为目标域图像XtX^{t}Xt生成伪标签,而不是使用学生网络fμf_{\mu}fμ。具体来说,模型预测未标记目标域图像的分割掩码,为目标域中的每个图像xktx_{k}^{t}xkt生成伪标签y^kt\hat{y}_{k}^{t}y^kt。目标域的无监督损失Lt\mathcal{L}^{t}Lt表示为:

Lt=1Nt∑k=1NtλtLce(fμ(xkt),y^kt),\mathcal{L}^{t}=\frac{1}{N_{t}}\sum_{k=1}^{N_{t}}\boldsymbol{\lambda}^{t}\mathcal{L}_{c e}\left(f_{\mu}\left(\boldsymbol{x}_{k}^{t}\right),\hat{y}_{k}^{t}\right),Lt=Nt1k=1NtλtLce(fμ(xkt),y^kt),

其中NtN_{t}Nt表示目标域的图像数量,λt\lambda^{t}λt是无监督损失的权重系数。学生网络通过反向传播更新教师网络的参数,利用教师网络的输出作为目标来最小化预测误差,同时采用指数移动平均(EMA)更新来稳定训练过程并改善收敛性。

3.2 概述

如图2所示,给定来自源域的输入图像xsx^{s}xs和来自不利条件下目标域的xtx^{t}xt,为了清晰起见,我们将不同天气条件θ\thetaθ下的图像表示为xθx^{\theta}xθ,其中θ∈(0,...,Θ)\theta\in(0,...,\Theta)θ(0,...,Θ)Θ\ThetaΘ表示不利天气条件的总数(x0x^{0}x0指正常天气条件下的源域图像)。傅里叶幅度特征faθf_{a}^{\theta}faθ从频域中解耦。然后,在提示聚合过程中学习一组提示,即提示库P\mathbf{P}P。获得的天气感知提示P^\hat{\mathbf{P}}P^进一步与幅度特征faθf_{a}^{\theta}faθ交互,演变为适应特征f^aθ\hat{f}_{a}^{\theta}f^aθ。然后,为了实现不同天气条件下特征的同质化,我们进一步采用同质化注意力来减轻天气异质性的影响。最后,调制特征fhθf_{h}^{\theta}fhθ被输入到教师-学生网络进行综合训练。

LdivJ\mathcal{L}_{d i v}^{\mathcal{J}}LdivJ

3.3 幅度提示聚合

为了分离RGB图像中融合的潜在天气特征和目标信息,我们首先通过探索傅里叶频域来建模天气特征的表示。然后,我们在傅里叶幅度特征中收集天气特征属性,并在提示聚合过程中获取天气感知提示。

幅度特征提取。在频域中,已知傅里叶谱的幅度分量保留了低级统计信息[33, 58],它反映了图像频率分量的能量分布,可以理解为图像的"特征"或"风格"表示。因此,我们可以利用傅里叶谱的幅度来提取不同场景中的天气特征知识。具体来说,在幅度提取器中,给定一个图像xθ∈~RH×W~×3x^{\theta}\quad\widetilde{\in}\quad\mathbb{R}^{H\times\widetilde{W}\times3}xθRH×W×3,我们应用二维傅里叶变换F(x){\mathcal{F}}(x)F(x)

F(xθ)u,v=∑h=0H−1∑w=0W−1xh,wθe−J2π(uhH+vwW),\mathcal{F}(x^{\theta})_{u,v}=\sum_{h=0}^{H-1}\sum_{w=0}^{W-1}x_{h,w}^{\theta}e^{-J2\pi\left(\frac{u h}{H}+\frac{v w}{W}\right)},F(xθ)u,v=h=0H1w=0W1xh,wθeJ2π(Huh+Wvw),

其中JJJ表示虚数单位。然后我们可以获得相应的幅度A\mathcal{A}A和相位Φ\PhiΦ

A(xθ)u,v=∣F(xθ)u,v∣,\mathcal{A}(x^{\theta})_{u,v}=\left|\mathcal{F}(x^{\theta})_{u,v}\right|,A(xθ)u,v=F(xθ)u,v,

Φ(xθ)u,v=arg⁡(F(xθ)u,v)=arctan⁡[Im(F(xθ)u,v)Re(F(xθ)u,v)],\Phi(x^{\theta})_{u,v}=\arg(\mathcal{F}(x^{\theta})_{u,v})=\arctan\left[\frac{\mathrm{I m}(\mathcal{F}(x^{\theta})_{u,v})}{\mathrm{R e}(\mathcal{F}(x^{\theta})_{u,v})}\right],Φ(xθ)u,v=arg(F(xθ)u,v)=arctan[Re(F(xθ)u,v)Im(F(xθ)u,v)],

其中arg⁡\argarg表示复数的参数(或相位角),Im\mathrm{Im}ImRe\mathrm{Re}Re分别表示F(x){\mathcal{F}}(x)F(x)的虚部和实部。通过这种方式,为了最终生成我们的幅度特征图,我们将相位固定为平均常数cpc^{p}cp,并应用逆傅里叶变换获取幅度特征图:

A‾(xθ)=F−1[A(xθ)u,ve−Jcp],\overline{{\mathcal{A}}}(x^{\theta})=\mathcal{F}^{-1}[\mathcal{A}(x^{\theta})_{u,v}e^{-J c^{p}}],A(xθ)=F1[A(xθ)u,veJcp],

其中F−1\mathcal{F}^{-1}F1表示逆傅里叶变换。然后,我们可以通过共享权重的轻量级编码器(例如ResNet\mathrm{ResNet}ResNet-18[15])获得幅度特征Fa ={\bf F}_{a}\;=Fa={faθ}θ=0Θ\{f_{a}^{\theta}\}_{\theta=0}^{\Theta}{faθ}θ=0Θ,为后续的天气感知提示聚合做准备。

天气感知提示聚合。为了有效聚合不同天气条件下的特征信息,我们旨在开发一种能够吸收跨天气知识的媒介。受[19]启发,我们引入一组提示,即提示库P = {pn}n=1N\mathbf{P}\;=\;\{\pmb{p}_{n}\}_{n=1}^{N}P={pn}n=1N,其中pn ∈ R1×L\boldsymbol{p}_{n}\;\in\;\mathbb{R}^{1\times L}pnR1×LNNN表示原型的数量。这些可学习提示将通过与幅度特征faθf_{a}^{\theta}faθ交互来提取特征知识,这些特征高度代表当前场景的风格条件。具体来说,对于获得的幅度特征faθf_{a}^{\theta}faθ,查询来自提示P\mathbf{P}P,键和值来自幅度特征Fa={fa0,...,faθ,...,faΘ}\mathbf{F}_{a}=\{f_{a}^{0},...,f_{a}^{\theta},...,f_{a}^{\Theta}\}Fa={fa0,...,faθ,...,faΘ}。形式上,

Qn=pnWQ,Kθ=faθWK,Vθ=faθWV,\mathbf{Q}_{n}=\pmb{p}_{n}\mathbf{W}^{Q},\mathbf{K}^{\theta}=f_{a}^{\theta}\mathbf{W}^{K},\mathbf{V}^{\theta}=f_{a}^{\theta}\mathbf{W}^{V},Qn=pnWQ,Kθ=faθWK,Vθ=faθWV,

其中n∈[1,…,N]n\in[1,\ldots,N]n[1,,N]WQ ∈ RC×Ck\mathbf{W}^{Q}~\in~\mathbb{R}^{C\times C_{k}}WQRC×CkWK∈\mathbf{W}^{K}\inWKRC×Ck,WV∈cRCˊ×Cvˊ\mathbb{R}^{C\times C_{k}},\mathbf{W}^{V}\overset{\mathfrak{c}}{\in}\mathbb{R}^{\acute{C}\times\acute{C_{v}}}RC×Ck,WVcRCˊ×Cvˊ是线性投影。注意力权重基于每个查询和键之间的点积相似性计算:

sn,θ=exp⁡(βn,θ)∑θ=0Θexp⁡(βn,θ),βn,θ=QnKθ⊤Ck,s_{n,\theta}=\frac{\exp\left(\beta_{n,\theta}\right)}{\sum_{\theta=0}^{\Theta}\exp\left(\beta_{n,\theta}\right)},\beta_{n,\theta}=\frac{\mathbf{Q}_{n}\mathbf{K^{\theta}}^{\top}}{\sqrt{C_{k}}},sn,θ=θ=0Θexp(βn,θ)exp(βn,θ),βn,θ=CkQnKθ,

p^n=FFN⁡(Att⁡(Qn,K,V))=FFN⁡(∑θ=0Θsn,θVθ),\hat{\boldsymbol{p}}_{n}=\operatorname{FFN}(\operatorname{Att}\left(\mathbf{Q}_{n},\mathbf{K},\mathbf{V}\right))=\operatorname{FFN}\left(\sum_{\theta=0}^{\Theta}s_{n,\theta}\mathbf{V}^{\theta}\right),p^n=FFN(Att(Qn,K,V))=FFN(θ=0Θsn,θVθ),

其中FFN⁡()\operatorname{FFN}()FFN()表示前馈网络。通过这种方式,天气感知提示P^={p^n}n=1N\mathbf{\hat{P}}=\{\hat{\pmb{p}}_{n}\}_{n=1}^{N}P^={p^n}n=1N可以从幅度特征Fa\mathbf{F}_{a}Fa中提取丰富的特征知识。

此外,为了使提示能够携带各种天气条件的多样化和全面知识,我们在提示库P\mathbf{P}P上应用多样性损失。形式上,

Ldiv=1N(N−1)∑i=1N∑j=1,i≠jN(⟨pi,pj⟩∥pi∥2∥pj∥2).\mathcal{L}_{d i v}=\frac{1}{N(N-1)}\sum_{i=1}^{N}\sum_{j=1,i\neq j}^{N}\left(\frac{\left\langle\boldsymbol{p}_{i},\boldsymbol{p}_{j}\right\rangle}{\left\|\boldsymbol{p}_{i}\right\|_{2}\left\|\boldsymbol{p}_{j}\right\|_{2}}\right).Ldiv=N(N1)1i=1Nj=1,i=jN(pi2pj2pi,pj).

对不同的提示应用多样性损失具有鼓励每个提示pn{\pmb p}_{n}pn关注天气条件不同属性的优势,从而防止聚合学习中的冗余。多样性损失通过鼓励每个提示捕获独特特征来增强天气特定提示。在域适应中整合提示库和多样性损失使模型能够适应各种天气。将此分为两个任务受到对天气自适应提示缺乏直接监督的限制;只有来自源域的前景掩码可用。因此,多样性损失扩大了提示库对风格特征的覆盖范围,以实现更好的域适应。

3.4 天气异质性适应

在不利天气条件下,天气引起的失真,如眩光、雾和雨滴,引入了复杂性,可能降低视觉感知的性能。为了解决由不同天气条件带来的天气异质性挑战,我们引入了天气异质性适应,它利用获得的天气自适应提示P^\hat{\mathbf{P}}P^作为参考,调制当前场景中的天气特征,并通过同质化注意力实现天气特征同质化。

提示引导调制。事实上,提示库的引入可以被视为人工解决事件的路标,即引导信息,它吸收各种场景中的天气感知知识,并可以将可靠的天气感知属性转移到调制特征中。对于获得的天气幅度特征faθf_{a}^{\theta}faθ,调制特征可以表示为:

f^aθ=Softmax(faθP^⊤C)P^.\hat{f}_{a}^{\theta}=\mathrm{Softmax}(\frac{f_{a}^{\theta}\mathbf{\hat{P}}^{\top}}{\sqrt{C}})\mathbf{\hat{P}}.f^aθ=Softmax(CfaθP^)P^.

通过这种方式,调制特征f^aθ\hat{f}_{a}^{\theta}f^aθ从天气感知提示P^\hat{\mathbf{P}}P^中继承了丰富的跨天气知识,从而演变为适合后续同质化的适应表示。

同质化注意力机制。有了调制特征f^aθ\hat{f}_{a}^{\theta}f^aθ的表示,我们首先通过特征编码从RGB域提取图像xθx^{\theta}xθ的视觉特征fvθf_{v}^{\theta}fvθ。为了同质化不同天气条件下的视觉特征,我们旨在找到一种适当的方法来减轻f^aθ\hat{f}_{a}^{\theta}f^aθfvθf_{v}^{\theta}fvθ的影响。受变换器[52]架构在发现局部区域方面成功的启发,我们进一步探索了注意力机制在不同天气条件特征同质化方面的潜力。

给定从视觉特征提取器(例如MiT−B5 [56]\mathrm{MiT}{\mathrm{-}}\mathrm{B}5~[56]MiTB5[56])提取的图像特征fvθ ∈ Rh×w×cf_{v}^{\theta}\;\in\;\mathbb{R}^{h\times w\times c}fvθRh×w×c,我们使用提取的f^aθ\hat{f}_{a}^{\theta}f^aθ通过新颖的同质化注意力机制去除天气特征。首先,我们使用两个卷积层将fvθf_{v}^{\theta}fvθf^aθ\hat{f}_{a}^{\theta}f^aθ映射到相同的维度CCC,然后我们可以分别获得f‾vθ∈Rh×w×C\overline{{\mathbf{f}}}_{\mathbf{v}}^{\theta}\in\mathbb{R}^{h\times w\times C}fvθRh×w×Cf‾aθ∈Rh×w×C\overline{{\boldsymbol{f}}}_{a}^{\theta}\in\mathbb{R}^{h\times w\times C}faθRh×w×C。图像特征和天气特征之间的差异表示目标物体的显著细节,从而有助于强调目标的相关信息。而不是普通的变换器注意力机制[52],我们自定义设计了同质化注意力,以更精细的方式减少异质性,促使视觉系统在不同场景中突出显著区域。具体来说,我们从像素级特征和天气特征中获取同质化图H∈Rh×w\mathcal{H}\in\mathbb{R}^{h\times w}HRh×w

Hi,jθ=∑c=1C(f‾vθi,j,c−f‾aθi,j,c)2,\mathcal{H}_{i,j}^{\theta}=\sum_{c=1}^{C}(\overline{{\mathbf{f}}}_{\mathbf{v}}^{\theta}{}_{i,j,c}-\overline{{f}}_{a}^{\theta}{}_{i,j,c})^{2},Hi,jθ=c=1C(fvθi,j,cfaθi,j,c)2,

其中i,ji,ji,jccc分别是高度、宽度和通道的索引。最后,我们可以通过对原始图像特征以像素级方式加权同质化图H\mathcal{H}H来获得同质化像素特征Fa\mathbf{F}^{a}Fa

fhθ=fθ∘Hθ,\mathbf{f}_{h}^{\theta}=\mathbf{f}^{\theta}\circ\mathcal{H}^{\theta},fhθ=fθHθ,

其中∘\circ表示元素级乘积。此外,我们使用自注意力层进一步聚合不同像素间的目标信息。获得的视觉特征被输入到传统的教师-学生网络中,其中来自源域的图像被输入到学生网络进行监督约束,而来自目标域的图像分别被输入到学生和教师网络以生成预测和用于无监督约束的伪标签。

3.5 训练监督

如第3.1节所述,从源和目标获得的适应视觉特征被输入到教师-学生网络中,以获取监督损失Ls\mathcal{L}^{s}Ls和无监督损失Lt\mathcal{L}^{t}Lt。结合提示库中的多样性损失Ldiv\mathcal{L}_{d i v}Ldiv,我们最终可以获得分割图:

Ltotal=Ls+Lt+λdivLdiv,\mathcal{L}_{t o t a l}=\mathcal{L}^{s}+\mathcal{L}^{t}+\lambda_{d i v}\mathcal{L}_{d i v},Ltotal=Ls+Lt+λdivLdiv,

其中λdiv\lambda_{d i v}λdiv是权衡权重。

4. 实验

4.1 实验设置

数据集。在我们的实验中,遵循常规做法[16, 18, 20],我们使用4个数据集,包括CityScapes[6]、ACDC[45]、NightCity[49]和DarkZurich[44]。对于源域,我们使用CityScapes的训练集;对于目标域,我们使用ACDC/DarkZurich的测试集或NightCity的验证集。(1) CityScapes训练集包含2,975张19个类别的图像,分辨率为2048×10242048\times10242048×1024。(2) ACDC包含雾、夜间、雨和雪等天气条件。测试集包含2,000张1920×10801920\times10801920×1080分辨率的图像。(3) NightCity包括4,297张真实夜间图像,分为2,998张训练图像和1,299张验证图像。(4) DarkZurich包含2,416张训练图像和151张用于夜间的测试图像。

实现细节。我们采用PyTorch[40]和Detectron2[55]实现所提出的方法。使用4块NVIDIA GeForce RTX 3090 GPU进行训练。幅度特征的提取器是ResNet-18[15]。在训练阶段,我们的模型使用批量大小为4进行训练,使用Adam优化器[31],初始学习率为0.0001。输入图像被重新缩放并随机裁剪到512×512512\times512512×512,遵循DAFormer[16]中相同的数据增强,并且用于更新教师网络的EMA系数设置为0.999。我们将提示数量设置为N=16N=16N=16,多样性损失的系数设置为λdiv=0.2\lambda_{d i v}=0.2λdiv=0.2

评估指标。为了公平比较,我们采用平均交并比(mIOU)指标。它通过计算每个物体类别的两个掩码的交集区域与并集区域的比率来衡量预测与真实值之间的相似性。

4.2 与最先进方法的比较

我们的方法在不利条件下的语义分割方面展示了卓越的性能,在表1、2和3中优于最先进的方法。可以观察到,我们的方法在道路、交通灯和行人等具有挑战性的类别上取得了显著改进。此外,如图3所示,我们的方法在各种天气场景中展示了有前景的分割性能。具体来说,我们的方法在大多数场景中表现优异,而MIC[18]可能由于无法显式感知天气条件而产生混淆激活,我们的WA2Net\mathrm{WA^{2}Net}WA2Net可以通过天气感知聚合和适应自适应地关注准确的前景目标。


4.3 消融研究

幅度提示聚合的有效性。幅度提示聚合包括两个过程:幅度特征提取和天气感知提示聚合。为了评估幅度提示聚合的有效性,我们进行了如表4所示的消融研究。如表4的第3行所示,不使用提示聚合意味着提示库不经过幅度特征的知识学习,而是自初始化并在网络训练期间更新。如果不聚合幅度特征信息,提示就无法感知天气感知知识,无法在提示引导调制中有效调制特征,导致性能显著下降。

天气异质性适应的有效性。天气异质性适应包括提示引导调制和同质化注意力。我们通过禁用此过程并观察分割准确性的变化来评估天气异质性适应的影响。同时丢弃提示聚合和调制,如表4的第2行所示(即放弃提示的生成和使用),意味着提取的幅度特征直接输入到同质化注意力机制中。这种方法导致faθf_{a}^{\theta}faθ无法感知多天气场景特征,对模型在极端场景中的泛化能力产生不利影响。

同质化注意力分析。我们还分析了设计的同质化注意力与其他注意力机制的比较,如表6所示。同质化注意力机制旨在通过动态对齐不同天气域的特征来解决天气条件的显著变异性。与关注特征空间中不同标记之间显式交互的交叉注意力,以及选择性地关注空间区域的掩码注意力不同,我们的同质化注意力结合了域适应策略,直接减轻不利天气条件引起的特征差异。可以观察到,异质性适应机制对于动态适应不同天气模式至关重要,从而提高了整体性能和可靠性。此外,图6显示了不同类别在有无天气感知聚合和适应情况下的激活图,说明了我们的设计对类别特定分割质量的影响。

超参数分析。我们对超参数进行了全面分析,以理解它们对模型性能的影响。多样性损失λdiv\lambda_{d i v}λdiv和提示数量NNN的选择影响如图5所示。太少的提示会阻碍捕获丰富场景信息的能力,而太多可能会捕获不相关的噪声信息。值得注意的是,表5中多样性损失带来的改进在ACDC[45]作为目标域时更为显著。这是由于ACDC包含更多的天气多样性(夜间、雨、雪和雾)相比仅夜间的NightCity[49],ACDC上的提示可以通过Ldiv\mathcal{L}_{d i v}Ldiv聚合更多样化的知识。因此,提示组合的多样性有助于在多种天气条件下进行多样化的场景分析。

5. 结论

在本文中,我们提出了一种天气感知聚合与适应网络(WA²Net),用于不利条件下的语义分割。我们设计了幅度提示聚合以获取天气感知特征知识,以及天气异质性适应以实现跨天气同质化,进行有效解析。大量实验表明了我们的有效性。

致谢

本工作部分得到中国国家重点研发计划(No.2024YFB3909902)、国家自然科学基金(62121002)和中国科学院青年创新促进会的支持。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!