（论文速读）DEnet：零参考联合去噪与增强-平芜编程栈

论文题目：INTERPRETABLE UNSUPERVISED JOINT DENOISING AND ENHANCEMENT FOR REAL-WORLD LOW-LIGHT SCENARIOS（用于实际微光场景的可解释无监督联合去噪和增强）

会议：ICLR2025

摘要：现实世界中的弱光图像经常会出现复杂的退化，如局部过度曝光、低亮度、噪声和照明不均匀。有监督的方法往往过度适应特定的场景，而无监督的方法虽然在泛化方面做得更好，但由于缺乏参考图像，难以对这些退化进行建模。为了解决这一问题，我们提出了一种可解释的、零参考联合去噪和微光增强框架，该框架适用于真实场景。我们的方法基于物理成像原理和视网膜理论，推导出一种基于具有不同光照和噪声水平的对子图像的训练策略。此外，我们利用离散余弦变换(DCT)在sRGB空间进行频域分解，并引入了一种隐式引导的混合表示策略，有效地分离了复杂的复合退化。在主干网络设计中，我们开发了隐式退化表征机制指导下的视网膜分解网络。大量实验证明了该方法的优越性。
代码将在https://github.com/huaqlili/UnSupervised-Light-Enhance-ICLR2025中找到。

零参考联合去噪与增强：面向真实低光照场景的可解释无监督方法

一、背景与动机：低光照增强为什么难？

低光照图像增强是计算机视觉领域的重要研究方向，其成果直接影响夜间摄影、天文观测、自动驾驶和人脸识别等下游任务的性能。然而，真实场景中的低光照图像并非只是"亮度不够"那么简单，它往往同时遭受以下多种复合退化：

整体亮度不足（low brightness）
局部过曝（local overexposure）
噪声污染（noise，尤其是泊松噪声）
不均匀光照（uneven illumination）

这些退化相互耦合，使得现有方法在真实场景中表现欠佳。

现有方法的局限

监督方法（如 Retinexformer、LLFormer、URetinexNet）虽然在基准测试上表现强劲，但依赖大量配对训练数据（正常光照图与低光照图一一对应），采集成本高昂，且容易过拟合特定场景，跨域泛化能力弱。

无监督/非配对方法（如 EnlightenGAN、NeRCo、PairLIE）绕开了配对数据的需求，但依赖同场景不同光照图像，受限于参考图像质量不一致以及光照分布归一化困难。

零参考方法（如 Zero-DCE、SCI、RUAS）不需要任何参考图像，是泛化性最强的一类方法。然而：

Zero-DCE 完全忽视噪声退化；
SCI 和 RUAS 虽集成了去噪模块，但使用特定损失函数，对不同噪声模式的泛化能力有限；
这些方法的根本问题在于无法区分多种退化模式对应的特征层，导致增强与去噪的特征在网络中相互混淆，带来模糊和伪影；
多阶段处理还会造成误差积累——低光照增强后噪声会被进一步放大。

📌论文 Figure 1（Input / Clip-LIT / SCI / Ours 在 SIDD 数据集上的对比图）

二、本文方法总览：DEnet

针对上述挑战，本文提出了DEnet（Joint Denoising and Enhancement Network），一个零参考、可解释的联合去噪与低光照增强框架。其核心思路是：

无需外部参考图像，通过对原始低光照图像进行物理驱动的预处理，自动生成具有不同光照和噪声水平的"配对子图"；
利用 DCT 频域分解，在 sRGB 空间中建模多维度退化先验；
设计隐式退化表示引导的 Retinex 分解网络，在频域中并行分离复杂退化，而非逐阶段串行处理。

整体架构由四大模块组成：FIcoder → LUMnet → REFnet → LCnet。

📌论文 Figure 2（完整流程图，含 PartA/B/C 三部分）

三、理论基础

3.1 Retinex 理论的扩展

经典 Retinex 理论将图像 I 分解为反射分量 R（物体固有属性）和光照分量 L（光照强度）的逐元素乘积：

但经典 Retinex 无法处理真实低光照中的复杂噪声。本文在此基础上引入噪声扰动项 N（建模为零均值泊松噪声）：

这一扩展是后续自监督训练策略的理论基石。

3.2 Noise2Noise 的理论支撑

本文的自监督去噪思路来源于 Noise2Noise（N2N）框架：当训练一个去噪网络时，如果替代目标（clean image）的噪声图像具有零均值噪声，则使用 L2 损失的优化结果与使用干净图像训练等价。这一点保证了在没有干净参考图像的情况下，去噪任务仍可自监督求解。

四、核心创新一：邻域像素掩码生成配对子图

自监督配对生成策略

在无法获取正常光照参考图的情况下，如何构造训练对？本文提出邻域像素掩码（Neighboring Pixel Masking）策略：

将原始低光照图像 I 按 2×2 像素块划分，从每个块中随机选取两个相邻像素，分别分配到两张 1/4 分辨率子图和：

两张子图来自同一场景，因此，，而、是独立的零均值噪声——这正好满足 Noise2Noise 框架的条件。

随机 Gamma 校正引入光照差异

为构造光照差异（从而让网络学会分离光照与反射），对施加随机 Gamma 校正，得到。对增强后的子图做 Taylor 展开近似（当接近 1 时）：

其中。最终两张子图可写为：

两者共享同一反射真值，但光照和噪声强度不同。只需约束两张图的反射图相等，即可构建联合去噪与增强的自监督网络，无需任何外部标注数据。

为什么不直接对原图做 Gamma 校正？因为直接对 I 做 Gamma 会使噪声 N 几乎保持不变，导致网络退化为学习恒等映射。通过先降采样再做 Gamma，有效破坏了这一平凡解。

五、核心创新二：频率-光照先验编码器（FIcoder）

FIcoder 的目标是从图像中提取隐式退化表示P，为后续反射图提取提供退化引导。它融合了两类先验：

光照先验

即图像在通道维度上的均值，代表图像的整体亮度水平。

频率先验（DCT 分解）

使用逐通道二维 DCT 将空间域图像 I 转换为频域表示 F。随后定义四个频带掩码：

：（极低频，色度/语义信息）
：（低频，整体语义）
：（中高频，边缘轮廓）
：（高频，噪声强度）

对频域表示 F 应用掩码后做逆 DCT（IDCT），得到对应空间域特征图。

最终将光照先验与四个频率先验通过卷积网络编码为隐式退化表示。

📌论文 Figure 4（五种先验图的可视化：、、、、）

六、核心创新三：Retinex 分解网络设计

REFnet（反射图提取）

REFnet 使用 Transformer 架构，以退化表示 P 作为 Key/Value，图像特征作为 Query，通过多头交叉注意力机制将隐式退化先验注入特征提取过程。这使得网络能够依据不同的退化程度自适应地分离反射分量，而非固定地处理所有输入。

📌论文 Figure 3（混合先验退化表示引导的多头交叉注意力示意图）

LUMnet（光照图提取）

LUMnet 同样基于 Transformer，每个 Transformer 块包含自注意力计算模块和门控模块，专注于提取光照分量。

LCnet（光照校正网络）

LCnet 是本文的一个重要设计。它通过 Transformer 处理特征后做全局平均池化，再经两层线性层，输出一维增强因子，用于校正光照图：

这一自适应模块解决了不同低光照程度图像增强结果不一致的问题——例如同一场景三张不同程度的低光照图，使用相同 LCnet 能分别输出合适的增强强度，避免局部过曝。

📌论文 Figure 8 左侧（LCnet 自适应性实验可视化，SICE 三张图的增强结果对比）

七、损失函数设计

总损失函数由四项组成：

Retinex 分解损失

反射图一致性损失：约束两张子图提取的反射图（加上跨尺度正则化项）：

光照图平滑损失：约束光照图平滑性、分解重建保真度，以及光照图的梯度。

跨尺度正则化项通过对比原始分辨率图与子图的反射图，保证跨尺度一致性，提升训练稳定性和泛化能力。

自监督增强损失

局部一致性损失：约束增强前后相邻 patch 间的对比关系保持一致，防止局部过增强。

亮度与色彩增强损失：约束增强图像的平均亮度向自然感知标准 E 靠近，并限制 R/G/B 三通道间的色彩偏差。

八、实验结果

8.1 定量对比

LOLv1 / LOLv2-Real 数据集

📌论文 Table 1（LOLv1 与 LOLv2-Real 上的 PSNR↑/SSIM↑/LPIPS↓ 对比，含监督/非配对/零参考方法）

本文方法在 LOLv1 上取得PSNR 19.80 / SSIM 0.750 / LPIPS 0.253，在所有无参考（zero-reference）方法中排名第一，并超过了部分非配对方法（PairLIE: 19.51，NeRCo: 19.70）。在 LOLv2-Real 上，PSNR 达到20.22 / SSIM 0.793，同样居无参考方法之首。

值得注意的是，本文方法参数量仅0.36M，远少于 SNR-aware（50.95M）、LLFormer（72.29M）等监督方法。

SICE / SIDD 数据集

📌论文 Table 2（SICE 上的 PSNR↑/SSIM↑/LPIPS↓ 和 SIDD 上的 BRISQUE↓/CLIPIQA↓ 对比，含模型参数量）

在 SICE 数据集（包含低/中/高三个退化等级）上，本文 PSNR 达到22.55，超过所有对比方法，包括监督方法中的 URetinexNet（22.12）。

在极具挑战性的 SIDD 数据集（真实手机拍摄高噪声图像）上，本文在无参考统计指标上取得最优成绩：BRISQUE 2.555（第二名 PairLIE 为 3.168），CLIPIQA 0.292（排名第一）。这表明本文增强结果最接近自然图像的视觉特性。

8.2 定性对比

📌论文 Figure 5（LOL 数据集视觉对比，包含 Input/RUAS/EnlightenGAN/Zero-DCE/SCI/PairLIE/NeRCo/Clip-LIT/Ours/Reference）

📌论文 Figure 6（SICE 数据集视觉对比）

📌论文 Figure 7（SIDD 数据集真实高噪声场景视觉对比）

从定性结果来看：

RUAS 和 EnlightenGAN：存在局部过曝和强烈对比度失真，根本原因是网络结构中缺乏可解释的光照反馈设计；
NeRCo：在部分区域产生伪影，暴露了生成模型在图像增强任务中的不可控性；
EnlightenGAN、Zero-DCE、Clip-LIT：能够增亮暗区，但缺乏去噪机制，增亮的同时放大噪声；
本文方法：在对比度、色度保真、噪声控制和细节保留上均表现最佳。

九、消融实验

9.1 去噪设计的消融

📌论文 Table 4（去噪设计消融，三种设置在 LOLv1/LOLv2 上的对比）

📌论文 Figure 8 右侧（三种设置在 LOLv1 上的视觉对比）

去掉邻域掩码（Set 1）：PSNR 大幅下降至 18.52，视觉上噪声极为明显（网络学习了恒等映射）；
去掉正则化项（Set 2）：欠曝区域丢失细节（降采样引入的局部语义损失）；
两者缺一不可。

9.2 混合先验的消融

📌论文 Table 3（三类物理先验的消融实验）

📌论文 Figure 9 右侧（不同先验组合的视觉对比）

仅加入光照先验即可带来约0.6 dB的 PSNR 提升；在此基础上加入低频或高频先验均进一步提升性能；三者联合使用效果最优。

9.3 Gamma 增强因子的影响

📌论文 Figure 9 左侧（不同值下的 PSNR 曲线，LOLv1）

实验表明，增强因子在时性能最佳：

过小（接近 1）：两张子图光照差异不足，网络无法有效学习光照分离；
过大：违背的假设，非线性噪声变化加剧，性能下降。

训练时在 (1.3, 1.7) 范围内随机采样，为模型提供更丰富的特征处理范围。

十、总结与思考

本文提出了一套完整的零参考低光照联合去噪与增强框架，核心亮点可归纳为：

物理驱动的自监督训练：邻域像素掩码 + 随机 Gamma 校正，无需任何外部参考，即可构造有效的自监督训练对；
频域隐式退化表示：DCT 多频带分解 + 隐式编码器，将亮度、色度、边缘、噪声等不同退化信息显式建模；
交叉注意力引导的分解：退化先验通过交叉注意力注入反射图提取，实现退化解耦；
自适应光照校正：LCnet 输出一维因子，解决不同低光照程度图像的一致性增强问题。

该方法以0.36M的轻量参数量，在多个真实数据集上超越了众多参数量更大的监督和非配对方法，展现出极强的泛化能力和实用价值。

对于未来工作，一个值得关注的方向是将该框架扩展到视频低光照增强（时序一致性约束），以及与扩散模型结合以进一步提升高频细节恢复质量。

（论文速读）DEnet：零参考联合去噪与增强