保姆级教程：用PyTorch从零实现SDE扩散模型（附完整代码与MNIST实战）-平芜编程栈

从零构建SDE扩散模型：PyTorch实战指南与MNIST生成艺术

在生成式人工智能的浪潮中，扩散模型以其出色的图像生成质量脱颖而出。不同于传统的GAN或VAE，扩散模型通过模拟物理系统中的扩散过程来学习数据分布，而基于随机微分方程（SDE）的扩散模型更是将这一过程推向连续化的新高度。本文将带您从PyTorch基础开始，完整实现一个SDE扩散模型，并在MNIST数据集上进行实战演练。

1. 环境准备与理论基础

1.1 核心数学概念

SDE扩散模型建立在几个关键数学概念之上：

随机微分方程（SDE）：描述系统在确定性漂移和随机扩散共同作用下的演化
分数函数（Score Function）：数据分布对数密度的梯度，∇ₓlogp(x)
福克-普朗克方程：描述概率密度随时间的演化

VP-SDE（Variance Preserving SDE）的数学表达为：

dx = -\frac{1}{2}β(t)xdt + \sqrt{β(t)}dW

其中β(t)控制噪声调度，W是标准布朗运动。

1.2 开发环境配置

推荐使用以下环境配置：

conda create -n sde python=3.9 conda activate sde pip install torch==1.13.1 torchvision==0.14.1 matplotlib

验证PyTorch安装：

import torch print(torch.__version__) # 应输出1.13.1 print(torch.cuda.is_available()) # 检查GPU可用性

2. 模型架构设计

2.1 VP-SDE类实现

我们首先实现VP-SDE的核心计算逻辑：

class VPSDE: def __init__(self, beta_min=0.1, beta_max=20.0, T=1.0): self.beta_min = beta_min self.beta_max = beta_max self.T = T def beta(self, t): """线性噪声调度函数""" return self.beta_min + t * (self.beta_max - self.beta_min) def marginal_prob(self, x0, t): """计算前向过程的均值和标准差""" integral_beta = self.beta_min * t + 0.5 * (self.beta_max - self.beta_min) * t**2 mean_coef = torch.exp(-0.5 * integral_beta) std = torch.sqrt(1 - torch.exp(-integral_beta)) return mean_coef * x0, std

2.2 分数网络架构

分数网络需要同时处理图像数据和时间信息：

class ScoreNet(nn.Module): def __init__(self): super().__init__() # 时间编码网络 self.time_embed = nn.Sequential( nn.Linear(1, 128), nn.SiLU(), nn.Linear(128, 256) ) # 主干网络 self.conv1 = nn.Conv2d(1, 64, 3, padding=1) self.down1 = nn.Conv2d(64, 128, 3, stride=2, padding=1) self.down2 = nn.Conv2d(128, 256, 3, stride=2, padding=1) self.up1 = nn.ConvTranspose2d(256, 128, 3, stride=2, padding=1, output_padding=1) self.up2 = nn.ConvTranspose2d(128, 64, 3, stride=2, padding=1, output_padding=1) self.conv_out = nn.Conv2d(64, 1, 3, padding=1) self.act = nn.SiLU() def forward(self, x, t): # 时间编码 t = t.view(-1, 1) t_emb = self.time_embed(t).view(-1, 256, 1, 1) # 下采样路径 h1 = self.act(self.conv1(x)) h2 = self.act(self.down1(h1)) h3 = self.act(self.down2(h2)) # 加入时间信息 h3 = h3 + t_emb # 上采样路径 h = self.act(self.up1(h3)) h = self.act(self.up2(h + h2)) return self.conv_out(h + h1)

3. 训练流程实现

3.1 损失函数设计

分数匹配损失的核心是预测噪声：

def loss_fn(model, x0, t, sde): """计算分数匹配损失""" x_t_mean, std = sde.marginal_prob(x0, t) noise = torch.randn_like(x0) x_t = x_t_mean + std * noise # 网络预测的分数应与 -noise/std 接近 score = model(x_t, t.view(-1, 1, 1, 1)) loss = torch.mean((score * std + noise)**2) return loss

3.2 训练循环

完整的训练过程实现：

def train(model, sde, train_loader, optimizer, device, epochs=10): model.train() for epoch in range(epochs): total_loss = 0 for x0, _ in train_loader: x0 = x0.to(device) # 均匀采样时间点 t = torch.rand(x0.shape[0], device=device) * (sde.T - 1e-5) + 1e-5 # 计算损失并更新 optimizer.zero_grad() loss = loss_fn(model, x0, t, sde) loss.backward() optimizer.step() total_loss += loss.item() print(f"Epoch {epoch+1}, Loss: {total_loss/len(train_loader):.4f}")

4. 采样与生成

4.1 反向SDE求解

使用欧拉-丸山方法进行采样：

def generate_samples(model, sde, device, shape=(16,1,28,28), steps=1000): model.eval() with torch.no_grad(): # 初始化噪声 x = torch.randn(shape, device=device) # 时间离散化 time_steps = torch.linspace(sde.T, 1e-3, steps, device=device) dt = time_steps[0] - time_steps[1] for t in time_steps: # 计算漂移项和扩散项 beta_t = sde.beta(t) score = model(x, t*torch.ones(shape[0],1,1,1,device=device)) drift = -0.5 * beta_t * x - beta_t * score diffusion = torch.sqrt(beta_t) # 欧拉-丸山更新 noise = torch.randn_like(x) x = x + drift * dt + diffusion * torch.sqrt(dt) * noise return x

4.2 结果可视化

生成样本并显示：

def plot_samples(samples): grid = torchvision.utils.make_grid(samples, nrow=4, normalize=True) plt.figure(figsize=(8,8)) plt.imshow(grid.permute(1,2,0).cpu()) plt.axis('off') plt.show() # 生成并显示16个样本 samples = generate_samples(model, sde, device) plot_samples(samples)

5. 高级技巧与优化

5.1 学习率调度

添加学习率预热可以提高训练稳定性：

def get_lr_scheduler(optimizer, warmup=5000): def lr_lambda(step): if step < warmup: return float(step) / warmup return 1.0 return torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)

5.2 噪声调度优化

尝试不同的β(t)调度策略：

调度类型	公式	特点
线性	β(t) = βₘᵢₙ + t(βₘₐₓ-βₘᵢₙ)	简单直接
余弦	β(t) = βₘᵢₙ + 0.5(βₘₐₓ-βₘᵢₙ)(1-cos(πt))	平滑过渡
平方	β(t) = βₘᵢₙ + t²(βₘₐₓ-βₘᵢₙ)	后期变化快

5.3 模型架构改进

可以考虑以下改进方向：

添加注意力机制
使用U-Net++作为主干
引入条件批归一化
尝试残差连接

class AttentionBlock(nn.Module): def __init__(self, channels): super().__init__() self.q = nn.Conv2d(channels, channels, 1) self.k = nn.Conv2d(channels, channels, 1) self.v = nn.Conv2d(channels, channels, 1) self.proj = nn.Conv2d(channels, channels, 1) def forward(self, x): B, C, H, W = x.shape q = self.q(x).view(B, C, -1) k = self.k(x).view(B, C, -1) v = self.v(x).view(B, C, -1) attn = torch.softmax(q @ k.transpose(1,2) / (C**0.5), dim=-1) out = (attn @ v).view(B, C, H, W) return self.proj(out) + x

6. 实战MNIST生成

完整的训练到生成流程：

def main(): device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 数据加载 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)) ]) train_set = datasets.MNIST("./data", train=True, download=True, transform=transform) train_loader = DataLoader(train_set, batch_size=128, shuffle=True) # 初始化模型和SDE model = ScoreNet().to(device) sde = VPSDE(beta_min=0.1, beta_max=20.0, T=1.0) # 优化器 optimizer = torch.optim.Adam(model.parameters(), lr=1e-3) scheduler = get_lr_scheduler(optimizer) # 训练 for epoch in range(10): train(model, sde, train_loader, optimizer, device) scheduler.step() # 每2个epoch生成示例 if epoch % 2 == 0: samples = generate_samples(model, sde, device) plot_samples(samples) # 最终生成 final_samples = generate_samples(model, sde, device, shape=(64,1,28,28)) plot_samples(final_samples) if __name__ == "__main__": main()