GPEN训练部署案例：FFHQ数据对准备与512x512分辨率调优-平芜编程栈

GPEN训练部署案例：FFHQ数据对准备与512x512分辨率调优

本镜像基于GPEN人像修复增强模型构建，预装了完整的深度学习开发环境，集成了推理及评估所需的所有依赖，开箱即用。

1. 镜像环境说明

组件	版本
核心框架	PyTorch 2.5.0
CUDA 版本	12.4
Python 版本	3.11
推理代码位置	`/root/GPEN`

主要依赖库：-facexlib: 用于人脸检测与对齐 -basicsr: 基础超分框架支持 -opencv-python,numpy<2.0,datasets==2.21.0,pyarrow==12.0.1-sortedcontainers,addict,yapf

2. 快速上手

2.1 激活环境

conda activate torch25

2.2 模型推理 (Inference)

进入代码目录并使用预置脚本进行推理测试：

cd /root/GPEN

使用下面命令进行推理测试，可以通过命令行参数灵活指定输入图片。

# 场景 1：运行默认测试图 # 输出将保存为: output_Solvay_conference_1927.png python inference_gpen.py # 场景 2：修复自定义图片 # 输出将保存为: output_my_photo.jpg python inference_gpen.py --input ./my_photo.jpg # 场景 3：直接指定输出文件名 # 输出将保存为: custom_name.png python inference_gpen.py -i test.jpg -o custom_name.png

推理结果将自动保存在项目根目录下，测试结果如下：

3. 已包含权重文件

为保证开箱即用及离线推理能力，镜像内已预下载以下模型权重（如果没有运行推理脚本会自动下载）：

ModelScope 缓存路径：~/.cache/modelscope/hub/iic/cv_gpen_image-portrait-enhancement
包含内容：完整的预训练生成器、人脸检测器及对齐模型。

4. 训练部署实践：FFHQ数据对构建与512x512分辨率优化

4.1 数据集选择与处理策略

GPEN采用监督式训练方式，依赖高质量-低质量图像对作为训练样本。官方推荐使用FFHQ (Flickr-Faces-HQ)数据集作为原始高清图像来源。

FFHQ 数据集特点：

包含7万张高分辨率（1024×1024）的人脸图像
覆盖多样化的年龄、性别、姿态和光照条件
图像质量高，适合用于人像增强任务的基准训练

数据降质方法设计：

为了生成对应的低质量图像，建议采用混合退化策略模拟真实世界中的模糊、噪声和压缩失真。常用方案包括：

使用BSRGAN或RealESRGAN的退化流程进行图像下采样
添加随机高斯噪声（σ ∈ [1, 5]）
模拟JPEG压缩（质量因子 QF ∈ [20, 80]）
引入轻微运动模糊或高斯模糊核（kernel size ≤ 5）

示例代码片段（基于basicsr实现降质）：

from basicsr.data.degradations import random_add_gaussian_noise, random_add_jpg_compression import cv2 import numpy as np def degrade_image(hr_img): # Step 1: 下采样至目标分辨率（如512x512） lr_img = cv2.resize(hr_img, (512, 512), interpolation=cv2.INTER_LANCZOS4) # Step 2: 添加高斯噪声 lr_noisy = random_add_gaussian_noise(lr_img, sigma_range=[1, 5]) # Step 3: JPEG压缩 degraded = random_add_jpg_compression(lr_noisy, quality_range=[20, 80]) return degraded

该流程可批量应用于FFHQ数据集，构建(HR_512x512, LR_512x512)成对数据。

4.2 分辨率调优：为何选择512x512？

尽管GPEN支持多种分辨率（如256x256、512x512、1024x1024），但在实际训练中，512x512 是性能与效率的最佳平衡点。

多分辨率对比分析：

分辨率	显存占用（单卡）	训练速度（iter/s）	细节保留能力	推理延迟
256x256	~6GB	~18	一般	<50ms
512x512	~14GB	~8	良好	<120ms
1024x1024	~28GB+	~3	优秀	>300ms

结论：512x512 在显存可控的前提下，能有效保留面部纹理细节（如皮肤质感、睫毛、唇纹），同时避免1024级别带来的高昂计算成本。

训练配置建议（针对512x512）：

# train_config.yaml 示例 model_type: GPEN-512 resolution: 512 batch_size: 8 num_workers: 4 optimizer: generator: lr: 2e-4 betas: [0.9, 0.99] discriminator: lr: 1e-4 scheduler: CosineAnnealingLR total_epochs: 200 warmup_epochs: 10

4.3 训练流程实施要点

数据加载模块定制

GPEN使用torch.utils.data.Dataset接口读取图像对。需确保：

HR 图像统一缩放至 512x512（保持纵横比裁剪）
数据增强仅作用于HR图像（避免引入额外退化）
使用RandomCrop提升局部特征学习能力

关键代码逻辑：

class FaceEnhanceDataset(Dataset): def __init__(self, hr_root, lr_root, crop_size=512): self.hr_files = sorted(os.listdir(hr_root)) self.lr_files = sorted(os.listdir(lr_root)) self.hr_root = hr_root self.lr_root = lr_root self.crop_size = crop_size def __getitem__(self, idx): hr_path = os.path.join(self.hr_root, self.hr_files[idx]) lr_path = os.path.join(self.lr_root, self.lr_files[idx]) hr_img = cv2.imread(hr_path) # BGR to RGB handled later lr_img = cv2.imread(lr_path) # Random crop h, w = hr_img.shape[:2] top = np.random.randint(0, h - self.crop_size) left = np.random.randint(0, w - self.crop_size) hr_crop = hr_img[top:top+self.crop_size, left:left+self.crop_size] lr_crop = lr_img[top:top+self.crop_size, left:left+self.crop_size] # To tensor and normalize hr_tensor = torch.from_numpy(hr_crop.astype(np.float32) / 255.).permute(2, 0, 1).contiguous() lr_tensor = torch.from_numpy(lr_crop.astype(np.float32) / 255.).permute(2, 0, 1).contiguous() return {'lq': lr_tensor, 'gt': hr_tensor}

损失函数配置

GPEN结合了多种损失项以提升视觉一致性：

L1 Loss：像素级重建误差
Perceptual Loss：VGG特征空间差异
GAN Loss：PatchGAN判别器对抗训练
Identity Loss：利用预训练ArcFace提取身份一致性约束

loss_dict = { 'l1_loss': l1_weight * l1_criterion(recon, gt), 'percep_loss': perc_weight * perceptual_criterion(recon, gt), 'gan_loss': gan_weight * gan_criterion(d_out), 'id_loss': id_weight * identity_criterion(recon, gt) }

此多目标优化机制显著提升了生成图像的身份保真度与自然感。