verl + FSDP：低成本微调大模型新选择-平芜编程栈

verl + FSDP：低成本微调大模型新选择

1. 引言

随着大语言模型（LLMs）在自然语言处理领域的广泛应用，如何高效、低成本地对预训练模型进行后训练（Post-Training），已成为工业界和学术界共同关注的核心问题。后训练通常包括监督微调（SFT）和基于人类反馈的强化学习（RLHF）等方法，旨在让通用模型更好地适配特定任务或领域。

然而，传统训练框架在面对百亿甚至千亿参数规模的模型时，往往面临显存占用高、训练效率低、系统集成复杂等问题。尤其是在资源有限的场景下，如何实现高性能与低成本的平衡，成为一大挑战。

在此背景下，verl应运而生。作为由字节跳动火山引擎团队开源的强化学习训练框架，verl 专为大型语言模型的后训练设计，是 HybridFlow 论文的官方实现。它不仅支持主流的 RL 算法（如 PPO、GRPO），还深度融合了 PyTorch 的 Fully Sharded Data Parallel（FSDP）机制，在保证训练稳定性的同时显著降低显存开销，真正实现了“低成本微调大模型”的目标。

本文将深入解析verl + FSDP的技术优势与工程实践路径，重点探讨其在 SFT 和 GRPO 场景下的配置方式、性能优化策略及生产落地要点，帮助开发者快速掌握这一高效训练新范式。

2. verl 核心特性解析

2.1 框架定位与设计理念

verl 并非一个从零构建的独立训练系统，而是以“模块化”和“可集成”为核心理念，专注于解决 LLM 后训练阶段的关键瓶颈——数据流控制、并行策略协同与资源利用率提升。

其核心设计思想体现在以下三个方面：

Hybrid 编程模型：结合单控制器与多控制器范式的优点，允许用户通过少量代码灵活定义复杂的训练流程。
解耦计算与数据依赖：使得 verl 能无缝对接现有 LLM 基础设施，如 vLLM 推理引擎、Megatron-LM 分布式训练框架等。
面向生产的稳定性保障：提供完整的 checkpoint 管理、日志记录与恢复机制，适用于长时间运行的大模型训练任务。

2.2 关键技术优势

易于扩展的多样化 RL 算法支持

verl 内置多种强化学习算法模板，包括标准 PPO、Group Relative Policy Optimization（GRPO）等。其中 GRPO 特别适合无显式奖励模型（Reward Model）的场景，通过组内相对排序生成优势估计，大幅降低了对标注数据的依赖。

更重要的是，verl 提供清晰的插件式接口，开发者可以轻松注册自定义的RewardManager或AdvantageEstimator，实现业务逻辑与训练框架的解耦。

与主流 LLM 框架无缝集成

verl 支持与以下主流工具链直接对接：

集成组件	支持情况
HuggingFace	✅ 全面兼容 AutoModel 系列
vLLM	✅ 用于高速 rollout 推理
FlashAttention	✅ 通过 flash-attn 插件加速
PEFT (LoRA)	✅ 支持参数高效微调
FSDP / DDP	✅ 原生支持 PyTorch 分布式

这种开放架构极大提升了框架的适用性，避免了重复造轮子的问题。

灵活的设备映射与并行化能力

verl 支持多种并行策略组合：

FSDP（Fully Sharded Data Parallel）：分片存储模型参数、梯度和优化器状态，显著降低单卡显存占用；
Ulysses Sequence Parallelism：跨 GPU 切分序列维度，进一步提升长文本处理能力；
Tensor Parallelism（via vLLM）：在推理阶段启用 tensor model parallelism，提高生成吞吐量。

这些并行策略可通过配置文件动态开启或关闭，适应不同硬件环境。

高效的 Actor 模型重分片机制（3D-HybridEngine）

这是 verl 实现高性能的关键创新之一。在传统的 RL 训练中，Actor 模型需在训练（FSDP）和推理（vLLM）两种模式间切换，导致频繁的模型状态重组与通信开销。

verl 引入3D-HybridEngine，通过统一的设备网格（Device Mesh）管理，在不重新加载模型的情况下完成策略网络的“就地”重分片，有效消除冗余通信，实测可减少高达 60% 的上下文切换延迟。

3. 实践应用：基于 FSDP 的 SFT 微调全流程

3.1 环境准备与安装验证

首先确保已配置好 Python 环境，并安装必要的依赖库。推荐使用 Conda 创建独立环境：

conda create -n verl python=3.10 conda activate verl

克隆 verl 源码并安装：

git clone https://github.com/volcengine/verl && cd verl pip install -e .

关键依赖版本建议如下：

torch==2.4.0+cu124 transformers==4.47.1 peft==0.14.0 vllm==0.5.4 flash-attn==2.5.9.post1 ray==2.42.1 omegaconf>=2.3 hydra-core>=1.3

安装完成后，执行以下命令验证是否成功：

import verl print(verl.__version__)

若输出版本号（如0.1.0），则表示安装成功。

3.2 SFT 训练配置详解

SFT 是后训练的基础步骤，常用于对齐模型输出格式或注入领域知识。verl 提供了FSDPSFTTrainer类来支持全量或 LoRA 微调。

主入口文件位于：verl/trainer/fsdp_sft_trainer.py
默认配置文件路径：verl/trainer/config/sft_trainer.yaml

我们重点关注以下几个核心配置项：

数据配置（data）

data: train_files: ~/data/gsm8k/train.parquet val_files: ~/data/gsm8k/test.parquet prompt_key: question response_key: answer max_length: 1024 micro_batch_size_per_gpu: 4 train_batch_size: 256

说明：

train_batch_size是全局 batch size，自动根据 GPU 数量和micro_batch_size_per_gpu计算梯度累积步数；
支持 parquet、jsonl 等多种输入格式；
可通过chat_template自动应用 HuggingFace 模板。

模型配置（model）

model: partial_pretrain: Qwen/Qwen2.5-0.5B-Instruct enable_gradient_checkpointing: True lora_rank: 32 lora_alpha: 16 target_modules: all-linear

partial_pretrain指定 HuggingFace 模型 ID 或本地路径；
启用 LoRA 可大幅降低显存消耗，尤其适合中小规模集群；
all-linear表示对所有线性层添加适配器。

FSDP 配置（fsdp_config）

fsdp_config: wrap_policy: min_num_params: 0 cpu_offload: False offload_params: False

wrap_policy.min_num_params: 0表示对所有子模块启用 FSDP 包装；
若显存紧张，可设置cpu_offload=True将部分参数卸载至 CPU。

训练器配置（trainer）

trainer: default_local_dir: /tmp/sft_model project_name: gsm8k-sft experiment_name: qwen-0.5b-lora total_epochs: 1 logger: ['console']

日志可通过wandb或tensorboard扩展；
default_local_dir指定模型保存路径。

3.3 自定义 YAML 配置与启动脚本

为便于管理，建议将所有参数集中在一个自定义 YAML 文件中（如sft_config.yaml），并通过修改入口函数实现文件加载。

修改fsdp_sft_trainer.py中的main函数：

def load_config(config_path): from omegaconf import OmegaConf return OmegaConf.load(config_path) def main(args): config = load_config(args.config_path) local_rank, rank, world_size = initialize_global_process_group() device_mesh = init_device_mesh('cuda', (world_size,), ('fsdp',)) dp_size = world_size // config.ulysses_sequence_parallel_size sp_mesh = (dp_size, config.ulysses_sequence_parallel_size) ulysses_device_mesh = init_device_mesh('cuda', sp_mesh, ('dp', 'sp')) trainer = FSDPSFTTrainer(config, device_mesh, ulysses_device_mesh) trainer.fit() if __name__ == '__main__': import argparse parser = argparse.ArgumentParser() parser.add_argument('--config_path', type=str, required=True) args = parser.parse_args() main(args)

随后编写启动脚本：

#!/bin/bash set -x nproc_per_node=8 CONFIG_PATH="./configs/sft_config.yaml" torchrun \ --nnodes=1 \ --nproc_per_node=$nproc_per_node \ --master_port=12345 \ -m verl.trainer.fsdp_sft_trainer \ --config_path=$CONFIG_PATH

该方式便于版本控制与复现实验。

3.4 移除验证环节（remove validation）

某些场景下无需验证集评估，可在FSDPSFTTrainer.fit()方法中注释掉self.val_dataloader相关逻辑，或在配置中设置：

data: val_files: null

同时修改训练循环逻辑，跳过validation_step调用，从而节省 I/O 开销与计算时间。

4. 强化学习实践：GRPO 算法落地指南

4.1 GRPO 简介与适用场景

Group Relative Policy Optimization（GRPO）是一种无需外部奖励模型的强化学习算法。其核心思想是：在每个 mini-batch 内部对生成结果进行排序，利用相对排名构造优势函数，驱动策略更新。

优势：

不依赖 Reward Model，降低部署成本；
对噪声标签鲁棒性强；
适合开放式生成任务（如创意写作、对话生成）。

局限：

优势估计偏差较大，收敛速度慢于 PPO；
需要较大的 batch size 以保证组内多样性。

4.2 配置文件结构分析

GRPO 主入口为verl/trainer/main_ppo.py，配置文件为ppo_trainer.yaml。

关键配置片段如下：

algorithm: adv_estimator: grpo kl_ctrl: type: fixed kl_coef: 0.001 actor_rollout_ref: model: path: Qwen/Qwen2-7B-Instruct actor: optim: lr: 1e-6 ppo_micro_batch_size_per_gpu: 1 ppo_max_token_len_per_gpu: 16384 rollout: name: vllm temperature: 1.0 top_p: 1.0 n: 8 # 每个 prompt 采样 8 条响应 dtype: bfloat16 gpu_memory_utilization: 0.8 tensor_model_parallel_size: 2

说明：

n: 8表示每个 prompt 生成 8 个 response，用于组内比较；
使用 vLLM 加速推理，tensor_model_parallel_size设置为 2 表示使用两张卡做 TP；
gpu_memory_utilization控制 vLLM 显存利用率，过高可能导致 OOM。

4.3 自定义奖励函数实现

尽管 GRPO 本身不依赖 Reward Model，但仍可通过RewardManager注入业务规则。

创建verl/workers/reward_manager/custom_reward.py：

from verl import DataProto import torch class LengthBasedRewardManager: def __init__(self, tokenizer, num_examine=5): self.tokenizer = tokenizer self.num_examine = num_examine def __call__(self, data: DataProto): reward_tensor = torch.zeros(data.batch['responses'].size(0), dtype=torch.float32, device='cuda') for i in range(len(data)): item = data[i] response_ids = item.batch['responses'] valid_len = item.batch['attention_mask'][item.batch['prompts'].size(-1):].sum() reward_tensor[i] = float(valid_len) # 以响应长度为奖励 return reward_tensor

在配置文件中引用：

reward_manager: custom custom_reward_cls: verl.workers.reward_manager.custom_reward.LengthBasedRewardManager

提示：实际业务中可结合语义质量评分、关键词匹配度、安全性检测等多维度指标构建复合奖励函数。

4.4 模型保存与格式转换

verl 默认保存的是包含优化器状态的 FSDP Checkpoint，无法直接被 HuggingFace 加载。需将其转换为标准格式。

转换脚本示例：

import torch from collections import defaultdict from transformers import AutoModelForCausalLM, AutoConfig def convert_fsdp_to_hf(fsdp_ckpt_dir, hf_model_path, output_dir, world_size=8): state_dict = defaultdict(list) for rank in range(world_size): ckpt = torch.load(f"{fsdp_ckpt_dir}/model_world_size_{world_size}_rank_{rank}.pt") for k, v in ckpt.items(): state_dict[k].append(v.to_local()) merged_state_dict = {k: torch.cat(v, dim=0) for k, v in state_dict.items()} config = AutoConfig.from_pretrained(hf_model_path) model = AutoModelForCausalLM.from_config(config) model.load_state_dict(merged_state_dict) model.save_pretrained(output_dir, max_shard_size="10GB") print(f"Converted checkpoint saved to {output_dir}")

调用方式：

convert_fsdp_to_hf( fsdp_ckpt_dir="/checkpoints/global_step_50/actor", hf_model_path="/models/Qwen2-7B-Instruct", output_dir="/hf_checkpoints/qwen2-7b-grpo-step50" )

转换后即可使用常规方式加载：

from transformers import pipeline pipe = pipeline("text-generation", model="/hf_checkpoints/qwen2-7b-grpo-step50")

5. 性能优化与最佳实践

5.1 显存优化建议

技术手段	效果	配置建议
FSDP + CPU Offload	显存下降 40%-60%	`cpu_offload: True`
Gradient Checkpointing	显存下降 ~30%，训练变慢 ~20%	`enable_gradient_checkpointing: True`
LoRA 微调	显存下降 >50%，仅更新少量参数	`lora_rank: 32`,`target_modules: all-linear`
Remove Padding	减少无效计算	`use_remove_padding: True`

5.2 训练效率提升技巧

启用 vLLM Chunked Prefill：对于长短不一的输入序列，开启enable_chunked_prefill: True可显著提升推理吞吐；
合理设置 batch size：避免因max_num_batched_tokens触顶而导致请求拒绝；
使用 BF16 精度：在 A100/H100 上启用bfloat16可兼顾精度与速度；
异步保存 checkpoint：避免 I/O 阻塞训练主线程。

5.3 多节点训练注意事项

当扩展到多机训练时，需注意：

设置正确的MASTER_ADDR和MASTER_PORT；
使用共享存储（如 NFS/HDFS）存放 checkpoint；
确保各节点 PyTorch 和 CUDA 版本一致；
启用 NCCL 调优参数（如NCCL_P2P_DISABLE=1在某些 IB 网络下更稳定）。

6. 总结

verl 作为一个专为大模型后训练设计的强化学习框架，凭借其模块化架构、对 FSDP 的深度集成以及高效的 3D-HybridEngine 重分片机制，成功解决了传统 RL 训练中显存占用高、通信开销大、系统耦合强等痛点。

本文系统介绍了 verl 在SFT与GRPO场景下的完整实践路径，涵盖环境搭建、配置管理、自定义奖励函数开发及模型格式转换等关键环节，并提供了可落地的性能优化建议。

综合来看，verl + FSDP组合为资源受限场景下的大模型微调提供了一条高性价比的技术路线，尤其适合希望在中小规模 GPU 集群上开展后训练的企业与研究团队。

未来，随着更多轻量化 RL 算法的集成与自动化调参工具的完善，verl 有望成为大模型 post-training 领域的重要基础设施之一。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

verl + FSDP：低成本微调大模型新选择