从噪声到图像：扩散生成技术的原理演进与应用实践-平芜编程栈

想象这样一个场景：你面前有一张白纸，上面画着一幅精美的肖像画。你拿起一支蘸满了墨的毛笔，在白纸上随意乱涂——第一笔，局部略有破坏；第二笔，大部分画面被墨迹覆盖；第三十笔，整张纸已经完全看不出任何画像的痕迹，只剩下完全的黑色。现在，如果你把这个“向画像上叠加黑色墨迹”的过程录像倒放，看到一个“从纯黑纸逐渐显露出完整画像”的过程，会不会觉得非常神奇？

扩散模型（Diffusion Models）正是通过这种“先破坏、后重建”的思想，在生成式人工智能领域掀起了一场革命——从2020年DDPM的奠基性提出，到2025年DiT成为视觉生成的“物理定律”，扩散技术已从图像生成扩展到视频、3D、音频乃至分子设计等广泛领域。本文将从原理出发，系统梳理这一领域的技术脉络、核心模型架构，并结合前沿实践，为开发者提供全景式的技术指南。

1 背景与动机：为什么扩散模型超越了GAN？

在扩散模型成为主流之前，生成式AI的旗舰技术是生成对抗网络（GAN）。GAN通过生成器与判别器的“猫鼠游戏”，逼迫生成器产出越来越真实的图像。这一范式在2014年至2019年间取得了巨大成功——StyleGAN系列达到了当时人类难以分辨的生成质量。然而，GAN的致命缺陷也逐渐暴露：训练极不稳定，模式坍塌频繁发生，对超参数的敏感性极高，调参如同“开盲盒”。

扩散模型的崛起，恰恰绕开了这些困境。它不依赖对抗训练，而是通过一个稳定的、经过严密数学推导的目标函数来学习数据分布。2020年，Ho等人发表的DDPM（Denoising Diffusion Probabilistic Models）论文，证明了扩散模型可以在不需要对抗训练的情况下达到与GAN相媲美的生成质量。此后，扩散模型迅速成为图像生成领域的新范式，其影响力远远超出了学术界——Stable Diffusion、DALL·E、Midjourney等商业化产品都建立在扩散技术之上。

在实际应用中，扩散模型的优势尤为突出：

高保真图像生成：在FID等定量指标上超越GAN，且不会出现GAN常见的“伪影”问题
训练稳定：不使用对抗训练，避免了生成器与判别器之间的“拉锯战”
条件控制灵活：通过文本、图像、草图等多种方式精确控制生成结果
泛化能力强：在大规模数据集上训练后，能够泛化到训练集中未出现的概念组合

然而，扩散模型也面临一个根本性挑战：生成速度慢。典型的DDPM需要数千步迭代去噪才能生成一张图像，这在实时应用场景中难以接受。这一速度瓶颈驱动了后续大量研究工作——从DDIM的数十倍加速，到潜在扩散的数个数量级效率提升，再到流匹配的端到端路径优化。

2 核心原理：从正向扩散到逆向生成

扩散模型的思想源于非平衡热力学中的扩散过程：物质在高浓度区域向低浓度区域扩散，最终达到均匀分布。如果把这个过程“倒过来”——从均匀分布逐渐“浓缩”回原始分布，就是生成。DDPM正是这种思想的数学实现。

2.1 正向扩散过程（Forward Process）

正向扩散过程定义一个马尔可夫链，在T步内逐步向原始图像添加高斯噪声，直至图像变成完全的随机噪声。每步的噪声注入遵循高斯分布：

[
q(x_t \mid x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} , x_{t-1}, \beta_t \mathbf{I})
]

其中 (\beta_t) 是预设的噪声调度系数，控制每一步添加的噪声量。常见的调度策略包括线性调度（(\beta_t) 从 (10^{-4}) 线性增加到 (2\times10^{-2})）和余弦调度（在高噪声区域变化更平滑）。

一个关键的数学洞察是：通过重参数化技巧（reparameterization trick），可以直接从原始图像 (x_0) 计算任意时间步 (t) 的噪声图像 (x_t)，无需逐步迭代，这极大提升了训练效率。推导结果为：

[
x_t = \sqrt{\bar{\alpha}_t} , x_0 + \sqrt{1 - \bar{\alpha}_t} , \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})
]

其中 (\bar{\alpha}t = \prod{i=1}^t (1 - \beta_i))。这个公式不仅简化了计算，还揭示了正向过程的本质：它是一个从原始数据到标准高斯噪声的“插值”过程，插值系数 (\sqrt{\bar{\alpha}_t}) 随时间逐渐衰减到0。

2.2 逆向生成过程（Reverse Process）

逆向过程的目标是学习如何从纯噪声 (x_T \sim \mathcal{N}(0, \mathbf{I})) 逐步去噪恢复出原始图像。逆向过程同样被建模为马尔可夫链，每一步由神经网络参数化的高斯分布给出：

[
p_\theta(x_{t-1} \mid x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))
]

DDPM的一个简化设计是：固定方差 (\Sigma_\theta) 为常数，只学习均值 (\mu_\theta)。然而，直接预测均值的优化目标在数学上不够优雅。研究发现，通过重参数化技巧，可以将均值预测转化为噪声预测问题：

[
\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} \epsilon\theta(x_t, t) \right)
]

这样一来，网络不再预测图像本身，而是预测被添加的噪声 (\epsilon)——这反而更简单、效果更好。

2.3 训练目标：从复杂ELBO到简单MSE

扩散模型的完整概率推导涉及证据下界（ELBO）的优化，包含多个与逆向马尔可夫链相关的项，直接优化十分复杂。然而，DDPM的作者发现了一个惊人的简化：训练目标可以被大大简化，而不会牺牲任何性能。

最核心的发现是：噪声预测的学习目标是等价的。在数学上，可以证明，优化ELBO等价于让网络学会预测生成 (x_t) 时所用到的噪声 (\epsilon)。简化后的训练损失变为：

[
\mathcal{L}{\text{simple}} = \mathbb{E}{t \sim [1,T], x_0 \sim q(x_0), \epsilon \sim \mathcal{N}(0,\mathbf{I})} \left[ | \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t) |^2 \right]
]

这个损失函数的直觉非常清晰：从一个随机时间步 (t) 采样的真实噪声 (\epsilon) 与网络预测的噪声 (\epsilon_\theta) 之间的均方误差。值得注意的是，这个简化损失函数自动为不同时间步分配的噪声尺度赋予了权重，实际上对大噪声（高 (t) 值）赋予了更高权重，这与直觉一致——早一步的图像模糊、包含更多低频结构，而晚一步的图像接近纯噪声、高频细节更难重建。

2.4 训练流程与采样算法

有了简化的目标函数，训练流程变得相当清晰：随机采样一批图像，为每张图像随机选择一个时间步 (t)，添加对应强度的噪声，然后让U-Net预测这个噪声。在推理阶段，标准DDPM的采样算法需要完整遍历从 (T) 到 (1) 的所有时间步，从纯噪声 (x_T) 开始，逐步减去网络预测的噪声，直到得到 (x_0)。

然而，这一方法的瓶颈在于：推理速度慢。由于需要T步迭代（通常T=1000），每生成一张图像的耗时以秒计。这一问题催生了后续大量加速技术。

3 关键模型架构与技术演进

从2020年至今，扩散模型领域经历了从“能否生成”到“如何高效生成”再到“如何大规模扩展”的演进。以下按时间线和功能模块逐一拆解。

3.1 经典U-Net：DDPM时代的骨干网络

在扩散模型的早期阶段，U-Net是事实上的标准架构。U-Net的结构具有对称的U形设计：左侧是逐步下采样的收缩路径（编码器），右侧是逐步上采样的扩展路径（解码器），中间通过跳跃连接将编码器的高分辨率特征拼接到解码器对应层。

扩散模型的U-Net增加了两个关键组件：

① 时间步嵌入（Timestep Embedding）：由于U-Net需要知道当前处于哪个去噪阶段（第1步还是第999步），模型采用了类似Transformer的正弦位置编码将时间步 (t) 编码为嵌入向量，然后通过加法或拼接注入到各个网络层中。

② 注意力层的引入：在较低分辨率的U-Net层级（如16×16和8×8特征图），标准U-Net被扩展为包含自注意力模块，以捕获图像中的长距离依赖关系。

直到2024年之前，U-Net几乎“统治”着扩散模型领域。然而，它的局限性也逐渐显现：归纳偏置（Inductive Bias）既是优势也是束缚。CNN天生假设像素只与邻域相关，这种局部性先验在小数据时代是神技，但当训练数据量达到互联网级别时，这种“偏见”反而限制了模型的学习上限。

3.2 DDIM：用非马尔可夫过程实现10倍加速

DDIM（Denoising Diffusion Implicit Models）的核心洞察是：生成过程中，并不需要严格遵循DDPM所定义的随机马尔可夫链。DDIM将DDPM推广为一种非马尔可夫扩散过程，并引入确定性采样路径——只要训练过程与DDPM共享相同的边缘分布，生成过程就可以在不同路径上进行。

具体来说，DDPM的生成过程是随机性的（每一步都会注入随机噪声），而DDIM的生成过程是确定性的。这意味着对于同一个初始噪声向量，DDIM每次都会生成完全相同的图像，这带来了两个重要优势：

加速生成：由于确定性采样路径更“直接”，DDIM可以跳过大量中间步骤而仍然保持高质量。实验表明，DDIM能够在10-50倍于DDPM的速度下生成高质量样本。
潜空间语义插值：确定性映射使得从一个噪声向量到另一个噪声向量的“旅行路径”具有语义意义，可以生成平滑的图像渐变，这在DDPM的随机采样路径中是无法实现的。

在实际应用中，DDIM通过一个参数 (\eta) 控制随机性程度：(\eta=0) 时是完全确定的DDIM（最快），(\eta=1) 时退化为DDPM。

3.3 Classifier-Free Guidance：让生成“听人话”

在文生图应用中，模型必须理解“狗戴帽子”这样的组合概念。早期的条件扩散模型采用分类器引导：在训练好的无条件扩散模型之外，额外训练一个分类器，用其梯度引导生成过程。这种方法虽然有效，但存在三个问题：需要额外的分类器训练、分类器可能被对抗样本欺骗、引导过程计算开销大。

CFG（Classifier-Free Guidance）彻底绕开了分类器。其核心思想极其简单：用一个网络同时学习条件生成和无条件生成两个任务。在训练时，以一定概率（通常为10%）将文本条件置为空（null），使模型既能学习条件生成，又能学习无条件生成。在推理时，通过线性外推组合两个预测结果：

[
\epsilon_{\text{guided}} = \epsilon_{\text{uncond}} + w \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}})
]

其中 (w) 是引导强度参数，典型取值为 (7 \sim 15)。当 (w=0) 时退化为无条件生成，(w) 越大模型越“听指令”，但过大的 (w) 会导致生成结果过饱和、多样性下降。

CFG的优雅之处在于：不需要额外训练任何模块，只在推理时做一个简单的插值计算，却能让文本-图像对齐效果大幅提升。正因为如此，CFG已成为现代扩散模型的标准组件。

3.4 潜在扩散模型：Stable Diffusion的效率革命

尽管DDIM大幅加速了推理，但一个根本性的效率问题仍然存在：扩散过程发生在像素空间。一张512×512的图像包含约78万维的向量，在这个高维空间上进行迭代去噪不仅计算量巨大，而且大量像素级细节其实与语义无关——模型浪费了大量算力去拟合高频像素噪声。

LDM（Latent Diffusion Model）的解决方案是将扩散过程从像素空间迁移到压缩后的潜空间。其核心架构分为两个阶段：

阶段一：VAE编解码器。训练一个变分自编码器（VAE）将高维图像压缩到低维潜空间。在Stable Diffusion中，VAE将512×512的RGB图像压缩为64×64×4的潜表示——维度压缩率达91.6%，显存占用减少64倍。VAE的编码器负责将图像映射为潜向量，解码器负责将潜向量重建为RGB图像。由于潜空间保留了图像的语义结构而丢弃了高频冗余信息，VAE重建图像的PSNR可达32.7dB。

阶段二：潜空间扩散。所有的扩散操作（正向加噪、反向去噪）都在潜空间中进行。由于潜表示维度远小于像素空间，U-Net的参数量大幅下降，训练和推理效率提升数个数量级。Stable Diffusion 1.x使用了约860M参数的U-Net配合交叉注意力进行文本条件注入。

LDM还解决了另一个重要的工程问题：多模态条件融合。通过交叉注意力（Cross-Attention）机制，模型可以在去噪过程中从多个模态获取控制信息——文本通过CLIP编码、图像通过VGG提取特征、草图通过边缘检测等预处理——实现了灵活的条件控制。

LDM的意义不仅仅是工程优化，它证明了：在足够丰富的潜空间中进行扩散，不仅能加速，还能提升质量。从此，扩散模型得以在消费级GPU上运行，Stable Diffusion的开源生态也由此蓬勃发展。

3.5 从U-Net到DiT：Transformer一统视觉生成

2024年，OpenAI的Sora视频生成模型发布，技术报告中一句"We use a diffusion transformer"向整个AI社区宣告了一个转折点：U-Net的时代即将结束，DiT（Diffusion Transformer）成为新一代视觉生成的“物理定律”。

为什么U-Net会被替代？核心原因在于扩展定律（Scaling Law）：

U-Net（CNN架构）具有强烈的归纳偏置——它假设像素只与邻域相关（局部性），假设同一物体在不同位置的表示相同（平移不变性）。这种先验在小数据时代是优势，但在互联网级别的大数据面前，它成为了一种“偏见”，限制了模型从数据中自主发现更复杂模式的能力。
DiT（Transformer架构）几乎没有归纳偏置——它假设任何一个像素都可以与任意远处的像素建立关系（Global Attention）。在数据量无限大的今天，Transformer验证了缩放定律：参数越多，效果越好，且没有明显上限。而U-Net在参数量增加到一定程度后，性能收益会迅速饱和。

DiT的本质是将图像视为一种特殊的语言序列。具体流程如下：

Patchify：将VAE编码后的潜空间特征图（例如32×32×4）切分成小块（例如2×2大小），得到256个Patch。
Linear Projection：将每个Patch映射为一个向量（Token），形成一个长度为256的序列。
Transformer Blocks：将这个序列输入标准Transformer块，在每个块中所有Token通过自注意力机制进行全局交互——完全模拟文本处理。
Unpatchify：将输出序列还原为潜空间特征图。

DiT在处理条件注入时采用了更高效的方式——AdaLN（Adaptive Layer Normalization，自适应层归一化）。传统Transformer中的LayerNorm具有固定的缩放γ和偏置β参数，而AdaLN让γ和β由时间步t和文本条件c动态回归出来。当去噪过程从第1步（全是噪点）进展到第50步（接近完成）时，整个网络每一层的激活状态都在自适应地调整。DiT更进一步采用了AdaLN-Zero技术：在训练初始化时将γ、β对应的回归层权重设为零，保证初始状态下Transformer块以恒等映射开始，逐步学习去噪的能力。

2026年的研究进一步揭示了DiT的缩放规律。Liang等人在ICLR 2026上首次明确提出了DiT的缩放定律：预训练损失与计算量之间遵循幂律关系，且这一关系与下游FID指标一致。基于此，研究者可以精确预测给定1.5e21 FLOPs计算预算时，一个10亿参数模型对应的最佳数据量和预期损失。这意味着扩散模型的设计可以从“凭经验摸索”升级为“根据数学规律预测”，这标志着扩散Transformer走向了与LLM同样成熟的工程化阶段。

到了2025年，无论是生成图像（Flux）、生成视频（Gen-3），还是生成3D资产，DiT已经成为唯一的底层架构选择。

4 前沿进展：2024-2026年的最新风向

4.1 流匹配与校正流：重新思考生成路径

传统扩散模型学习和高维噪声之间的随机随机微分方程，路径通常是弯曲的、效率低的。流匹配（Flow Matching）和校正流（Rectified Flow）是2023-2024年出现的两个新范式，它们从不同的数学角度重新定义了生成过程。

流匹配的核心思想是：直接学习一个普通微分方程（ODE）的速度场**，使得从噪声分布到数据分布的“粒子运动”路径最短。在这一范式下，不同时间步的训练目标不再完全独立，而是通过在配对时间步上约束速度预测的一致性来降低梯度方差。

校正流则试图让生成路径变得笔直。它首次引入了从预训练扩散模型中获得噪声-样本匹配对的思路，然后用这些配对数据重新训练一个流匹配模型。其结果是：模型可以仅用4步生成高质量图像。2026年的StreamFlow进一步在512×512图像上将校正流的生成速度最高提升到611%（约6倍加速），远超传统加速方法。这些进展打破了“扩散模型必须迭代许多步”的铁律，为实时生成提供了全新可能性。

4.2 扩散模型的缩放定律

与LLM类似，扩散模型也正在从“调参经验学”走向“可预测的科学”。Liang等人在2026年发表的《Scaling Laws for Diffusion Transformers》系统性地探索了DiT的缩放规律，首次明确提出了DiT的缩放定律，证实了扩散Transformer预训练损失随计算量增加而遵循幂律下降。这意味着，在给定计算预算的条件下，可以预测最优模型规模和所需数据量。实验覆盖了从 (1\times10^{17}) 到 (6\times10^{18}) FLOPs的广泛计算范围，该缩放定律随后被验证与FID等生成质量指标高度相关。

4.3 一步生成：Consistency Models的突破

2023年提出的一致性模型（Consistency Models）试图将扩散过程“一步到位”：直接从噪声映射到数据，无需迭代。其核心思想是学习一个函数 (f_\theta(x_t, t))，使得对于同一个数据流形上的不同时间步，该函数的输出都映射到同一个起点。训练时，一致性模型利用自一致性损失——在相邻时间步之间强制预测结果一致，从而实现逐步自蒸馏。一致性模型在训练完成后可实现单步生成，采样速度比原始DDPM提升了超过1000倍，但生成质量与多步扩散仍存在一定差距，这是当前一个活跃的研究方向。

5 实践指南：从零开始训练扩散模型

理论落地与实际工程之间往往存在差距。本部分以PyTorch为核心框架，梳理扩散模型的完整实践路线。

5.1 数据集与评估指标

数据集	规模	分辨率	特点	典型应用
MNIST	6万	28×28	手写数字，入门最友好	原型验证、调参测试
CIFAR-10	6万	32×32	10类物体，中等难度	DDPM/DDIM基准测试
CelebA-HQ	3万	1024×1024	高清人脸，高质量	高保真生成评估
ImageNet	1400万	256×256~1024×1024	大规模多样本，行业黄金标准	扩散模型基准标杆
LAION-5B	50亿	文本-图像对，多种分辨率	文生图训练，规模巨大	Stable Diffusion预训练

评估生成质量最常用的指标是FID（Frechet Inception Distance，弗雷谢初始距离），它比较真实图像与生成图像在Inception网络特征空间中的分布距离——FID越低，生成质量越高。FID在论文中的典型参考线：真实图像FID≈0，优秀扩散模型在CIFAR-10上可<3，在ImageNet 256×256上可<5。其他常用指标包括IS（Inception Score，初始分数）评估多样性和类别清晰度、CLIP Score评估文本与图像的对齐程度、Precision/Recall评估生成图像的保真度与覆盖率。

5.2 核心训练技巧

① 噪声调度策略

噪声调度决定了每一步添加多少噪声，对生成质量影响极大。常见选项包括：

线性调度：(\beta_t) 从 (1\times10^{-4}) 线性增长到 (2\times10^{-2})，是DDPM原文使用的标准配置，简单有效
余弦调度：(\beta_t) 按余弦函数变化，在高噪声区域变化更平缓，在高分辨率数据上通常优于线性调度

② 训练技巧

指数移动平均（EMA，Exponential Moving Average）：在训练过程中维护模型参数的指数移动平均，推理时使用EMA模型而非实时模型。这对扩散模型的稳定性至关重要，通常衰减系数取0.9999。研究发现，不使用EMA训练时模型可能会“退化”，生成图像的FID会明显恶化。
混合精度训练：使用torch.cuda.amp进行FP16混合精度训练，内存占用和训练时间均可减少约40%。
梯度裁剪：将梯度范数裁剪在1.0以内，防止训练不稳定导致的梯度爆炸。

5.3 PyTorch实战：扩散模型的核心代码骨架

正向扩散实现

defq_sample(x_start,t,noise=None):"""前向扩散：直接从x0采样xt"""ifnoiseisNone:noise=torch.randn_like(x_start)# 预计算的α_cumprod，形状为[T]，每个t对应sqrt_alpha_cumprod和sqrt_1_minus_alpha_cumprodsqrt_alpha_cumprod_t=sqrt_alpha_cumprod[t]sqrt_1_minus_alpha_cumprod_t=sqrt_1_minus_alpha_cumprod[t]# 关键公式：xt = sqrt(ᾱ_t) * x0 + sqrt(1-ᾱ_t) * ε# 两者需增加维度以匹配x_start（[B, ...] 与 [B, 1, ...]）returnsqrt_alpha_cumprod_t[:,None]*x_start+sqrt_1_minus_alpha_cumprod_t[:,None]*noise

训练目标（噪声预测）

deftrain_step(model,x_0):# 1. 采样随机时间步（批次内每个样本独立）t=torch.randint(0,timesteps,(batch_size,),device=device)# 2. 采样真实噪声 ε ~ N(0, I)noise=torch.randn_like(x_0)# 3. 生成带噪声的xtx_t=q_sample(x_0,t,noise)# 4. 预测噪声noise_pred=model(x_t,t)# 5. 计算MSE损失loss=F.mse_loss(noise_pred,noise)returnloss

推理采样（DDPM标准过程）

@torch.no_grad()defp_sample(model,x,t,t_index):"""单步去噪：从xt到xt-1"""betas_t=betas[t]sqrt_recip_alphas_t=sqrt_recip_alphas[t]sqrt_one_minus_alphas_cumprod_t=sqrt_one_minus_alphas_cumprod[t]# 模型预测噪声noise_pred=model(x,t)# DDPM均值公式：μ = 1/√α_t * (x_t - β_t/√(1-ᾱ_t) * ε_θ)mean=sqrt_recip_alphas_t*(x-betas_t*noise_pred/sqrt_one_minus_alphas_cumprod_t)ift_index==0:# 最后一步不添加噪声（直接输出）returnmeanelse:# 添加方差 σ_t^2 = β_t（或改进的方差）posterior_variance_t=betas_t# 简化noise=torch.randn_like(x)returnmean+torch.sqrt(posterior_variance_t)*noisedefsample(model,batch_size,device,channels=3,image_size=32):"""完整采样：从纯噪声开始迭代生成"""shape=(batch_size,channels,image_size,image_size)# 从标准正态分布采样初始噪声img=torch.randn(shape,device=device)foriinreversed(range(0,timesteps)):img=p_sample(model,img,i,i)# 可选：添加DDIM确定性采样路径代替随机路径returnimg

实现时，通常将alpha_cumprod、sqrt_alpha_cumprod、sqrt_one_minus_alpha_cumprod、sqrt_recip_alphas等系数预先计算好存入数组，以空间换时间，避免每一步重复计算。

6 挑战与未来方向

6.1 当前的技术瓶颈

挑战维度	问题描述	严重程度
生成效率	高质量生成仍需数十步迭代，与GAN的毫秒级生成仍有差距	🔴 高
可控性	复杂组合概念的控制仍需精细调参，引导强度w需手动平衡质量和多样性	🟡 中
训练成本	高质量扩散模型需海量数据和巨大算力（10⁴–10⁵ GPU小时）	🔴 高
一致性	多次相同提示生成结果差异大，缺乏高保真的确定性映射	🟡 中
可解释性	中间潜空间的语义含义不明确，调试和定向编辑困难	🟡 中

6.2 值得关注的未来方向

实时扩散生成：StreamDiffusion等工作通过流水线并行、模型蒸馏等方式已实现实时视频风格转换，下一步目标是高分辨率实时生成。
统一生成框架：单模型同时支持图像、视频、3D、音频等多模态生成，以DiT为骨干，通过调整Patch大小和注意力范围统一不同模态的Token化格式。
扩散模型的可解释性与调试：理解扩散潜空间中特征维度的语义含义，实现精准的区域编辑和概念添加/删除。
小数据高效扩散：从“需要海量数据”向“数10张图就能微调”演进，适用于医疗影像、工业检测等数据稀缺领域。

7 总结

从2020年DDPM的奠基性提出，到2026年DiT缩放定律的精确预测，扩散模型走过的这六年，完成了从“实验室惊奇”到“工业级基础设施”的蜕变。

阶段	时间	核心模型	关键突破	主要局限
奠基期	2020	DDPM	端到端噪声预测范式，超越GAN	生成速度极慢（T步迭代）
加速期	2020–2021	DDIM、LDM	确定性采样（10-50倍加速），VAE潜空间（效率级提升）	潜空间压缩存在质量损失
引导期	2022–2023	CFG、ControlNet	高精度条件控制，CFG成文生图标配	过引导导致多样性下降
扩展期	2024–2025	DiT、Sora	缩放定律验证，架构向Transformer完全过渡	训练成本陡峭增长
优化期	2025–2026	Flow Matching、Rectified Flow	端到端路径优化，4步高质量生成	理论框架仍在演进

一个清晰的趋势已经显现：扩散模型的演进，正在从“模仿噪声破坏再重建”的热力学启发，走向“任意分布之间最短路径”的几何优化；它的架构，正在从CNN的归纳偏置，走向Transformer的数据驱动泛化。这一变革不仅仅是模型架构的更替，更是生成式AI从“人工设计特征”到“让数据自己说话”的范式跃迁。

对于刚刚踏入这一领域的开发者来说，从DDPM的U-Net实现开始搭建完整训练pipeline，是理解扩散本质的最佳路径；对于面向落地的工程师，在潜空间中应用DDIM采样和CFG引导能够兼顾效率与可控性；而如果目标是探索前沿，DiT的缩放规律和流匹配正在展现“用数学预测工程结果”的全新可能性。

那条从纯黑画布到完整图像的道路，还在被不断缩短、压直、再缩短。

参考资料：
Ho et al.Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Song et al.Denoising Diffusion Implicit Models. ICLR 2021.
Ho & Salimans.Classifier-Free Diffusion Guidance. NeurIPS 2022 Workshop.
Rombach et al.High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Peebles & Xie.Scalable Diffusion Models with Transformers. ICCV 2023.
Lipman et al.Flow Matching for Generative Modeling. ICLR 2023.
Liu et al.Rectified Flow. arXiv 2023.
Liang et al.Scaling Laws for Diffusion Transformers. ICLR 2026.
StreamFlow:Accelerating Rectified Flow Generation. arXiv 2026.