极速入门：5步完成verl环境搭建与模型测试-平芜编程栈

极速入门：5步完成verl环境搭建与模型测试

1. 快速了解 verl 框架

你是否正在寻找一个高效、灵活且能用于生产环境的强化学习（RL）训练框架，专为大型语言模型（LLM）后训练设计？verl正是为此而生。它由字节跳动火山引擎团队开源，是其HybridFlow 论文的官方实现，目标是让 LLM 的 RL 训练更高效、更易扩展。

verl 不只是一个研究项目，而是面向实际部署的工业级框架。它的核心优势在于：

多样化 RL 算法支持：通过 Hybrid 编程模型，轻松构建复杂的后训练数据流，用户只需几行代码即可定制流程。
无缝集成主流 LLM 框架：兼容 PyTorch FSDP、Megatron-LM、vLLM 等，模块化设计让你自由切换底层基础设施。
高效的并行与资源调度：支持灵活的设备映射和 3D 并行策略，最大化 GPU 利用率。
开箱即用的 HuggingFace 集成：直接加载 HF 模型，无需复杂转换。
极致性能优化：基于 3D-HybridEngine 实现 Actor 模型重分片，显著降低通信开销，提升吞吐。

无论你是想在单卡上做实验，还是在多机集群中部署大规模训练，verl 都提供了足够的灵活性和性能保障。

2. 环境准备：5步快速部署

本节将带你从零开始，在 Linux 系统上完成 verl 的完整环境搭建。我们采用自定义安装方式，避免 Docker 拉取失败或网络限流问题，确保每一步都清晰可控。

2.1 安装 CUDA 11.8

由于 verl 对 CUDA 版本有明确要求，建议使用CUDA 11.8，以兼容后续 PyTorch 和 cuDNN 版本。

# 下载 runfile 安装包后执行 sudo sh cuda_11.8.0_520.61.05_linux.run --toolkit --installpath=/usr/local/cuda-11.8

提示：使用--installpath可避免覆盖系统已有 CUDA，便于多版本共存。

安装完成后，添加环境变量到~/.bashrc：

export PATH=/usr/local/cuda-11.8/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

执行source ~/.bashrc生效。

2.2 安装 cuDNN 8.9.7

cuDNN 是深度学习性能的关键组件。选择与 CUDA 11.x 兼容的cuDNN 8.9.7。

解压并安装到独立目录：

sudo mkdir -p /usr/local/cudnn-8.9.7-cuda11 sudo tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz \ --strip-components=1 -C /usr/local/cudnn-8.9.7-cuda11

然后链接到 CUDA 11.8 目录：

sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/lib/* /usr/local/cuda-11.8/lib64/ sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/include/* /usr/local/cuda-11.8/include/

2.3 创建 Python 虚拟环境

推荐使用 Conda 管理依赖，创建独立环境避免冲突。

conda create -n verl-env python=3.10 -y conda activate verl-env

2.4 安装 PyTorch 2.6.0 + CUDA 11.8

在激活的虚拟环境中安装指定版本的 PyTorch：

pip install torch==2.6.0+cu118 torchvision==0.21.0+cu118 torchaudio==2.6.0+cu118 \ --index-url https://download.pytorch.org/whl/cu118

2.5 安装 Apex 与 verl 框架

Apex 提供了分布式训练和混合精度支持，是 verl 的关键依赖。

git clone https://github.com/NVIDIA/apex.git cd apex MAX_JOB=32 pip install -v --disable-pip-version-check --no-cache-dir \ --no-build-isolation --config-settings "--build-option=--cpp_ext" \ --config-settings "--build-option=--cuda_ext" ./

最后安装 verl 主体：

git clone https://github.com/volcengine/verl.git cd verl # 安装 Megatron 等依赖 bash scripts/install_vllm_sglang_mcore.sh # 安装 verl 本身 pip install --no-deps -e .

至此，verl 环境已成功部署！

3. 验证安装：检查版本与导入

进入 Python 环境，验证 verl 是否正确安装：

import verl print(verl.__version__)

若输出类似0.1.0或具体 commit 版本号，则说明安装成功。

你也可以运行以下命令查看是否能正常调用：

python -c "import verl; print('Verl installed successfully!')"

4. 模型测试：运行 PPO 训练任务

接下来，我们将使用Qwen2.5-0.5B-Instruct模型和GSM8K数据集，运行一个简化的 PPO 强化学习训练任务。适用于显存有限的设备（如 Tesla P40）。

4.1 数据准备

首先下载 GSM8K 数据集并转换为 parquet 格式：

from datasets import load_from_disk # 假设 arrow 数据已下载至 gsm8k_disk ds = load_from_disk("gsm8k_disk") ds["train"].to_parquet("train.parquet") ds["test"].to_parquet("test.parquet")

然后使用 verl 提供的预处理脚本转换为 RL 所需格式：

python verl/examples/data_preprocess/gsm8k.py \ --data_source ./train.parquet \ --local_dir ./data/gsm8k/fmt_rl

4.2 下载模型

使用 Hugging Face CLI 下载模型：

hf download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./models/Qwen2.5-0.5B-Instruct

4.3 修改兼容性配置（针对旧 GPU）

如果你使用的是Tesla P40（Compute Capability 6.1）等老型号 GPU，需进行以下两项硬编码修改：

（1）禁用 Bfloat16 支持

在 verl 工程中全局搜索"Bfloat16"，替换为"float32"。

原因：P40 不支持 BF16，强行使用会报错。

（2）关闭 Flash Attention 2

搜索"flash_attention_2"，替换为"eager"。

原因：FlashAttention-2 依赖 Tensor Core 和高共享内存，P40 硬件不支持。

4.4 启动训练脚本

保存以下脚本为verl-ppo-gsm8k.sh并执行：

export HYDRA_FULL_ERROR=1 export VLLM_DTYPE=float32 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 PYTHONUNBUFFERED=1 TRITON_MAX_SHARED_MEMORY=49152 python3 -m verl.trainer.main_ppo \ data.train_files=$HOME/data/gsm8k/fmt_rl/train.parquet \ data.val_files=$HOME/data/gsm8k/fmt_rl/test.parquet \ data.train_batch_size=1 \ data.max_prompt_length=256 \ data.max_response_length=256 \ actor_rollout_ref.model.path=$HOME/models/Qwen2.5-0.5B-Instruct \ actor_rollout_ref.actor.optim.lr=1e-6 \ actor_rollout_ref.actor.ppo_mini_batch_size=1 \ actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.name=vllm \ actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.tensor_model_parallel_size=1 \ actor_rollout_ref.rollout.gpu_memory_utilization=0.3 \ actor_rollout_ref.rollout.max_num_batched_tokens=512 \ ++actor_rollout_ref.rollout.enable_chunked_prefill=false \ ++actor_rollout_ref.fsdp_config.cpu_offload=true \ ++actor_rollout_ref.fsdp_config.offload_params=true \ actor_rollout_ref.rollout.max_num_seqs=1 \ actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=1 \ critic.optim.lr=1e-5 \ critic.model.path=$HOME/models/Qwen2.5-0.5B-Instruct \ critic.ppo_micro_batch_size_per_gpu=1 \ algorithm.kl_ctrl.kl_coef=0.001 \ trainer.logger=console \ trainer.val_before_train=False \ trainer.n_gpus_per_node=1 \ trainer.nnodes=1 \ trainer.save_freq=10 \ trainer.test_freq=10 \ trainer.total_epochs=2 2>&1 | tee verl_demo.log

注意：
max_num_batched_tokens必须 ≥max_prompt_length + max_response_length
所有路径请根据实际环境调整

执行：

bash verl-ppo-gsm8k.sh

5. 常见问题与解决方案

在低显存或旧 GPU 上运行 verl 时，可能会遇到以下典型问题。

5.1 CUDA 12 不兼容

现象：报错no kernel image is available for execution on the device
原因：Tesla P40 最高支持 CUDA 11.x，不兼容 CUDA 12
解决：严格使用 CUDA 11.8，并确保 PyTorch 版本匹配

5.2 Bfloat16 不支持

现象：ValueError: Bfloat16 is only supported on GPUs with compute capability >= 8.0
原因：P40 架构为 Pascal（SM 6.1），不支持 BF16
解决：全局替换"Bfloat16"→"float32"

5.3 显存溢出（Shared Memory 超限）

现象：OutOfResources: shared memory, Required: 81920, Hardware limit: 49152
原因：FlashAttention-2 使用大量共享内存，P40 仅支持 48KB
解决：将"flash_attention_2"替换为"eager"模式

5.4 训练中途崩溃（尚未完全解决）

现象：训练前几步正常，第 8-9 步突然报OutOfResources
可能原因：
- 模型参数量过大，显存不足
- Triton 动态编译 kernel 占用过多共享内存
- 内存碎片积累导致分配失败
尝试方案：
- 进一步降低 batch size
- 启用 CPU offload（已在脚本中开启）
- 减少num_stages或 block size（需修改源码）
当前结论：在 24GB 显存下运行 0.5B 模型仍存在挑战，建议升级硬件或使用更小模型

6. 总结

通过以上5个步骤，你已经完成了 verl 框架的完整部署与基础测试：

安装 CUDA 11.8 与 cuDNN 8.9.7
创建 Python 虚拟环境并安装 PyTorch
编译安装 Apex 与 verl 主体
验证安装并准备测试数据
修改兼容性配置，成功启动 PPO 训练

虽然在老旧 GPU（如 Tesla P40）上仍面临显存限制和功能兼容性问题，但通过调整数据类型、关闭高性能算子、启用 CPU 卸载等手段，verl 依然可以在单卡环境下跑通基本流程，为学习和调试提供了可能。

对于生产级应用，建议使用 A100/V100 等支持 FP16/BF16 和 Tensor Core 的现代 GPU，以充分发挥 verl 的高性能优势。

下一步，你可以尝试：

在多卡环境下运行分布式训练
接入自定义奖励模型
使用更大规模的 LLM 进行后训练实验

verl 作为工业级 RL 框架，正逐步成为 LLM 后训练的重要工具链之一。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

极速入门：5步完成verl环境搭建与模型测试