论文题目:INTERPRETABLE UNSUPERVISED JOINT DENOISING AND ENHANCEMENT FOR REAL-WORLD LOW-LIGHT SCENARIOS(用于实际微光场景的可解释无监督联合去噪和增强)
会议:ICLR2025
摘要:现实世界中的弱光图像经常会出现复杂的退化,如局部过度曝光、低亮度、噪声和照明不均匀。有监督的方法往往过度适应特定的场景,而无监督的方法虽然在泛化方面做得更好,但由于缺乏参考图像,难以对这些退化进行建模。为了解决这一问题,我们提出了一种可解释的、零参考联合去噪和微光增强框架,该框架适用于真实场景。我们的方法基于物理成像原理和视网膜理论,推导出一种基于具有不同光照和噪声水平的对子图像的训练策略。此外,我们利用离散余弦变换(DCT)在sRGB空间进行频域分解,并引入了一种隐式引导的混合表示策略,有效地分离了复杂的复合退化。在主干网络设计中,我们开发了隐式退化表征机制指导下的视网膜分解网络。大量实验证明了该方法的优越性。
代码将在https://github.com/huaqlili/UnSupervised-Light-Enhance-ICLR2025中找到。
零参考联合去噪与增强:面向真实低光照场景的可解释无监督方法
一、背景与动机:低光照增强为什么难?
低光照图像增强是计算机视觉领域的重要研究方向,其成果直接影响夜间摄影、天文观测、自动驾驶和人脸识别等下游任务的性能。然而,真实场景中的低光照图像并非只是"亮度不够"那么简单,它往往同时遭受以下多种复合退化:
- 整体亮度不足(low brightness)
- 局部过曝(local overexposure)
- 噪声污染(noise,尤其是泊松噪声)
- 不均匀光照(uneven illumination)
这些退化相互耦合,使得现有方法在真实场景中表现欠佳。
现有方法的局限
监督方法(如 Retinexformer、LLFormer、URetinexNet)虽然在基准测试上表现强劲,但依赖大量配对训练数据(正常光照图与低光照图一一对应),采集成本高昂,且容易过拟合特定场景,跨域泛化能力弱。
无监督/非配对方法(如 EnlightenGAN、NeRCo、PairLIE)绕开了配对数据的需求,但依赖同场景不同光照图像,受限于参考图像质量不一致以及光照分布归一化困难。
零参考方法(如 Zero-DCE、SCI、RUAS)不需要任何参考图像,是泛化性最强的一类方法。然而:
- Zero-DCE 完全忽视噪声退化;
- SCI 和 RUAS 虽集成了去噪模块,但使用特定损失函数,对不同噪声模式的泛化能力有限;
- 这些方法的根本问题在于无法区分多种退化模式对应的特征层,导致增强与去噪的特征在网络中相互混淆,带来模糊和伪影;
- 多阶段处理还会造成误差积累——低光照增强后噪声会被进一步放大。
📌论文 Figure 1(Input / Clip-LIT / SCI / Ours 在 SIDD 数据集上的对比图)
二、本文方法总览:DEnet
针对上述挑战,本文提出了DEnet(Joint Denoising and Enhancement Network),一个零参考、可解释的联合去噪与低光照增强框架。其核心思路是:
- 无需外部参考图像,通过对原始低光照图像进行物理驱动的预处理,自动生成具有不同光照和噪声水平的"配对子图";
- 利用 DCT 频域分解,在 sRGB 空间中建模多维度退化先验;
- 设计隐式退化表示引导的 Retinex 分解网络,在频域中并行分离复杂退化,而非逐阶段串行处理。
整体架构由四大模块组成:FIcoder → LUMnet → REFnet → LCnet。
📌论文 Figure 2(完整流程图,含 PartA/B/C 三部分)
三、理论基础
3.1 Retinex 理论的扩展
经典 Retinex 理论将图像 I 分解为反射分量 R(物体固有属性)和光照分量 L(光照强度)的逐元素乘积:
但经典 Retinex 无法处理真实低光照中的复杂噪声。本文在此基础上引入噪声扰动项 N(建模为零均值泊松噪声):
这一扩展是后续自监督训练策略的理论基石。
3.2 Noise2Noise 的理论支撑
本文的自监督去噪思路来源于 Noise2Noise(N2N)框架:当训练一个去噪网络时,如果替代目标(clean image)的噪声图像具有零均值噪声,则使用 L2 损失的优化结果与使用干净图像训练等价。这一点保证了在没有干净参考图像的情况下,去噪任务仍可自监督求解。
四、核心创新一:邻域像素掩码生成配对子图
自监督配对生成策略
在无法获取正常光照参考图的情况下,如何构造训练对?本文提出邻域像素掩码(Neighboring Pixel Masking)策略:
将原始低光照图像 I 按 2×2 像素块划分,从每个块中随机选取两个相邻像素,分别分配到两张 1/4 分辨率子图和
:
两张子图来自同一场景,因此,
,而
、
是独立的零均值噪声——这正好满足 Noise2Noise 框架的条件。
随机 Gamma 校正引入光照差异
为构造光照差异(从而让网络学会分离光照与反射),对施加随机 Gamma 校正,得到
。对增强后的子图做 Taylor 展开近似(当
接近 1 时
):
其中。最终两张子图可写为:
两者共享同一反射真值,但光照和噪声强度不同。只需约束两张图的反射图相等,即可构建联合去噪与增强的自监督网络,无需任何外部标注数据。
为什么不直接对原图做 Gamma 校正?因为直接对 I 做 Gamma 会使噪声 N 几乎保持不变,导致网络退化为学习恒等映射。通过先降采样再做 Gamma,有效破坏了这一平凡解。
五、核心创新二:频率-光照先验编码器(FIcoder)
FIcoder 的目标是从图像中提取隐式退化表示P,为后续反射图提取提供退化引导。它融合了两类先验:
光照先验
即图像在通道维度上的均值,代表图像的整体亮度水平。
频率先验(DCT 分解)
使用逐通道二维 DCT 将空间域图像 I 转换为频域表示 F。随后定义四个频带掩码:
:
(极低频,色度/语义信息)
:
(低频,整体语义)
:
(中高频,边缘轮廓)
:
(高频,噪声强度)
对频域表示 F 应用掩码后做逆 DCT(IDCT),得到对应空间域特征图。
最终将光照先验与四个频率先验
通过卷积网络编码为隐式退化表示
。
📌论文 Figure 4(五种先验图的可视化:
、
、
、
、
)
六、核心创新三:Retinex 分解网络设计
REFnet(反射图提取)
REFnet 使用 Transformer 架构,以退化表示 P 作为 Key/Value,图像特征作为 Query,通过多头交叉注意力机制将隐式退化先验注入特征提取过程。这使得网络能够依据不同的退化程度自适应地分离反射分量,而非固定地处理所有输入。
📌论文 Figure 3(混合先验退化表示引导的多头交叉注意力示意图)
LUMnet(光照图提取)
LUMnet 同样基于 Transformer,每个 Transformer 块包含自注意力计算模块和门控模块,专注于提取光照分量。
LCnet(光照校正网络)
LCnet 是本文的一个重要设计。它通过 Transformer 处理特征后做全局平均池化,再经两层线性层,输出一维增强因子,用于校正光照图:
这一自适应模块解决了不同低光照程度图像增强结果不一致的问题——例如同一场景三张不同程度的低光照图,使用相同 LCnet 能分别输出合适的增强强度,避免局部过曝。
📌论文 Figure 8 左侧(LCnet 自适应性实验可视化,SICE 三张图的增强结果对比)
七、损失函数设计
总损失函数由四项组成:
Retinex 分解损失
反射图一致性损失:约束两张子图提取的反射图
(加上跨尺度正则化项
):
光照图平滑损失:约束光照图平滑性、分解重建保真度,以及光照图的梯度。
跨尺度正则化项通过对比原始分辨率图与子图的反射图,保证跨尺度一致性,提升训练稳定性和泛化能力。
自监督增强损失
局部一致性损失:约束增强前后相邻 patch 间的对比关系保持一致,防止局部过增强。
亮度与色彩增强损失:约束增强图像的平均亮度向自然感知标准 E 靠近,并限制 R/G/B 三通道间的色彩偏差。
八、实验结果
8.1 定量对比
LOLv1 / LOLv2-Real 数据集
📌论文 Table 1(LOLv1 与 LOLv2-Real 上的 PSNR↑/SSIM↑/LPIPS↓ 对比,含监督/非配对/零参考方法)
本文方法在 LOLv1 上取得PSNR 19.80 / SSIM 0.750 / LPIPS 0.253,在所有无参考(zero-reference)方法中排名第一,并超过了部分非配对方法(PairLIE: 19.51,NeRCo: 19.70)。在 LOLv2-Real 上,PSNR 达到20.22 / SSIM 0.793,同样居无参考方法之首。
值得注意的是,本文方法参数量仅0.36M,远少于 SNR-aware(50.95M)、LLFormer(72.29M)等监督方法。
SICE / SIDD 数据集
📌论文 Table 2(SICE 上的 PSNR↑/SSIM↑/LPIPS↓ 和 SIDD 上的 BRISQUE↓/CLIPIQA↓ 对比,含模型参数量)
在 SICE 数据集(包含低/中/高三个退化等级)上,本文 PSNR 达到22.55,超过所有对比方法,包括监督方法中的 URetinexNet(22.12)。
在极具挑战性的 SIDD 数据集(真实手机拍摄高噪声图像)上,本文在无参考统计指标上取得最优成绩:BRISQUE 2.555(第二名 PairLIE 为 3.168),CLIPIQA 0.292(排名第一)。这表明本文增强结果最接近自然图像的视觉特性。
8.2 定性对比
📌论文 Figure 5(LOL 数据集视觉对比,包含 Input/RUAS/EnlightenGAN/Zero-DCE/SCI/PairLIE/NeRCo/Clip-LIT/Ours/Reference)
📌论文 Figure 6(SICE 数据集视觉对比)
📌论文 Figure 7(SIDD 数据集真实高噪声场景视觉对比)
从定性结果来看:
- RUAS 和 EnlightenGAN:存在局部过曝和强烈对比度失真,根本原因是网络结构中缺乏可解释的光照反馈设计;
- NeRCo:在部分区域产生伪影,暴露了生成模型在图像增强任务中的不可控性;
- EnlightenGAN、Zero-DCE、Clip-LIT:能够增亮暗区,但缺乏去噪机制,增亮的同时放大噪声;
- 本文方法:在对比度、色度保真、噪声控制和细节保留上均表现最佳。
九、消融实验
9.1 去噪设计的消融
📌论文 Table 4(去噪设计消融,三种设置在 LOLv1/LOLv2 上的对比)
📌论文 Figure 8 右侧(三种设置在 LOLv1 上的视觉对比)
- 去掉邻域掩码(Set 1):PSNR 大幅下降至 18.52,视觉上噪声极为明显(网络学习了恒等映射);
- 去掉正则化项(Set 2):欠曝区域丢失细节(降采样引入的局部语义损失);
- 两者缺一不可。
9.2 混合先验的消融
📌论文 Table 3(三类物理先验的消融实验)
📌论文 Figure 9 右侧(不同先验组合的视觉对比)
仅加入光照先验即可带来约0.6 dB的 PSNR 提升;在此基础上加入低频或高频先验均进一步提升性能;三者联合使用效果最优。
9.3 Gamma 增强因子的影响
📌论文 Figure 9 左侧(不同
值下的 PSNR 曲线,LOLv1)
实验表明,增强因子在
时性能最佳:
过小(
接近 1):两张子图光照差异不足,网络无法有效学习光照分离;
过大:违背
的假设,非线性噪声变化加剧,性能下降。
训练时在 (1.3, 1.7) 范围内随机采样,为模型提供更丰富的特征处理范围。
十、总结与思考
本文提出了一套完整的零参考低光照联合去噪与增强框架,核心亮点可归纳为:
- 物理驱动的自监督训练:邻域像素掩码 + 随机 Gamma 校正,无需任何外部参考,即可构造有效的自监督训练对;
- 频域隐式退化表示:DCT 多频带分解 + 隐式编码器,将亮度、色度、边缘、噪声等不同退化信息显式建模;
- 交叉注意力引导的分解:退化先验通过交叉注意力注入反射图提取,实现退化解耦;
- 自适应光照校正:LCnet 输出一维因子,解决不同低光照程度图像的一致性增强问题。
该方法以0.36M的轻量参数量,在多个真实数据集上超越了众多参数量更大的监督和非配对方法,展现出极强的泛化能力和实用价值。
对于未来工作,一个值得关注的方向是将该框架扩展到视频低光照增强(时序一致性约束),以及与扩散模型结合以进一步提升高频细节恢复质量。