verl避坑全记录：CUDA、BF16、FlashAttention问题解决-平芜编程栈

verl避坑全记录：CUDA、BF16、FlashAttention问题解决

在尝试使用verl框架进行强化学习训练时，我手头只有一块老旧的 Tesla P40 GPU（24GB 显存，计算能力 6.1），本以为能勉强跑通一个小型模型的 PPO 训练流程。结果从环境配置到实际运行，踩了无数坑——CUDA 版本不兼容、BF16 不支持、FlashAttention 编译失败、显存溢出……每一个都看似简单，实则层层嵌套。

本文将完整还原我在部署verl过程中遇到的关键问题及其解决方案，尤其针对低算力设备（如 Tesla P40）用户，提供一份可复用的“避坑指南”。如果你也在老卡上折腾大模型训练框架，这篇内容或许能帮你少走几天弯路。

1. 环境配置：绕开官方文档的陷阱

官方安装文档虽然提供了 Docker 和源码两种方式，但在国内网络环境下，Docker 镜像拉取极易因限流中断（unauthorized: authentication required）。因此，建议直接采用源码安装 + 自定义环境的方式，在本地 Linux 系统中手动搭建适配旧 GPU 的运行环境。

以下是我基于Ubuntu 20.04 x86_64 + Tesla P40成功运行 verl 的依赖配置清单，请严格按照顺序执行：

安装顺序	基础包	版本	安装说明
1	CUDA	11.8	推荐使用 runfile 手动安装至`/usr/local/cuda-11.8`，避免与系统其他版本冲突。命令： `sudo sh cuda_11.8.0_520.61.05_linux.run --toolkit --installpath=/usr/local/cuda-11.8`
2	cuDNN	8.9.7 for CUDA 11.x	下载对应版本 tar 包并解压到独立目录，再复制文件到 CUDA 安装路径： `bash<br>sudo mkdir -p /usr/local/cudnn-8.9.7-cuda11<br>sudo tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz --strip-components=1 -C /usr/local/cudnn-8.9.7-cuda11<br>sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/lib/* /usr/local/cuda-11.8/lib64/<br>sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/include/* /usr/local/cuda-11.8/include/<br>`
3	Python	3.10	创建独立虚拟环境： `conda create -n verl-env python=3.10 -y && conda activate verl-env`
4	PyTorch	2.6.0+cu118	使用 pip 安装指定 CUDA 版本： `pip install torch==2.6.0+cu118 torchvision==0.21.0+cu118 torchaudio==2.6.0+cu118 --index-url https://download.pytorch.org/whl/cu118`
5	Apex	最新 master 分支	按照官方推荐方式编译安装： `bash<br>git clone https://github.com/NVIDIA/apex.git<br>cd apex<br>MAX_JOB=32 pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./<br>`
6	verl	GitHub 主干最新版本	步骤如下： 1.`git clone https://github.com/volcengine/verl.git` 2.`cd verl && bash scripts/install_vllm_sglang_mcore.sh` 3.`pip install --no-deps -e .`

关键提示：Tesla P40 的计算能力为 6.1，不支持 CUDA 12 及以上版本，也不支持 FP16/BF16 加速运算。若强行使用高版本 CUDA 或默认配置，后续必然报错。

2. 核心问题一：CUDA 不兼容导致 kernel 编译失败

2.1 问题现象

启动训练脚本后出现如下错误：

RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call...

这是典型的GPU 架构不匹配错误。PyTorch 或 Triton 编译的 CUDA kernel 无法在当前 GPU 上运行。

2.2 根本原因

Tesla P40 属于Pascal 架构（Compute Capability 6.1）
CUDA 12 默认不再支持 Compute Capability < 7.0 的设备
即使安装成功，底层库（如 Triton、FlashAttention）也无法生成适用于 SM_61 的二进制代码

2.3 解决方案

必须使用CUDA 11.8及其配套工具链，并确保所有组件（PyTorch、cuDNN、Triton）均编译自支持 SM_61 的版本。

验证方法：

import torch print(torch.cuda.get_device_capability()) # 应输出 (6, 1)

同时设置环境变量以增强调试信息：

export HYDRA_FULL_ERROR=1 export CUDA_LAUNCH_BLOCKING=1 # 同步报错，便于定位

3. 核心问题二：BF16 数据类型不被支持

3.1 问题现象

训练过程中抛出异常：

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla P40 GPU has compute capability 6.1.

这说明代码试图使用 BF16 精度进行计算，但硬件不支持。

3.2 硬件限制分析

Tesla P40 支持的数据类型如下：

数据类型	是否支持	说明
FP32	全精度浮点，主推使用
FP64	双精度，性能较低
FP16	❌	无 Tensor Core，不支持半精度加速
BFLOAT16	❌	需要 Ampere 及以上架构

结论：不能使用任何低精度格式（FP16/BF16），只能退回到 FP32。

3.3 解决方案

方法一：修改源码硬编码（有效）

在verl工程根目录下全局搜索"Bfloat16"，将其替换为"float32"：

grep -r "Bfloat16" . # 修改所有匹配项，例如： # "dtype": "Bfloat16" → "dtype": "float32"

注意：一定要带引号搜索，防止误改变量名。

方法二：通过环境变量控制（部分生效）

某些模块可通过环境变量强制指定数据类型：

export VLLM_DTYPE=float32

但该方式对 verl 内部多个子模块无效，仍需配合源码修改。

4. 核心问题三：FlashAttention-2 导致共享内存溢出

4.1 问题现象

即使降低了 batch size，依然报错：

triton.runtime.errors.OutOfResources: out of resource: shared memory, Required: 81920, Hardware limit: 49152.

提示所需共享内存超过硬件上限（49152 bytes ≈ 48KB），而 FlashAttention-2 要求至少 80KB。

4.2 技术背景解析

FlashAttention-2 是为Ampere（SM_80）及以上架构设计
其核心优化依赖：
- Tensor Cores
- 更大的共享内存（≥80KB）
- warp-level matrix operations
Tesla P40（SM_61）最大共享内存仅为48KB，且无 Tensor Core

因此，FlashAttention-2 在 P40 上不仅慢，而是根本无法编译运行。

4.3 解决方案

修改 attention 实现为`eager`模式

在verl源码中搜索"flash_attention_2"，替换为"eager"：

grep -r "flash_attention_2" . # 替换为："attention_implementation": "eager"

同样需要带上引号精确匹配，避免影响其他字段。

此外，在训练脚本中也可以尝试添加覆盖参数（但不如源码修改可靠）：

++actor_rollout_ref.model.attn_implementation=eager

5. 显存优化策略：让小显存也能跑起来

即便解决了上述三大障碍，Tesla P40 的 24GB 显存对于现代 LLM 强化学习仍是巨大挑战。以下是经过多次调参总结出的有效配置策略。

5.1 关键参数调整原则

参数	建议值	说明
`train_batch_size`	1	极限压缩批大小
`ppo_micro_batch_size_per_gpu`	1	防止 critic 更新时 OOM
`max_prompt_length`/`max_response_length`	≤256	控制序列长度
`gpu_memory_utilization`	0.3~0.5	vLLM 推理内存预留
`max_num_batched_tokens`	≥512	必须 ≥ prompt + response 总长
`enable_chunked_prefill`	false	减少中间缓存占用

5.2 可运行的训练脚本示例

export HYDRA_FULL_ERROR=1 export VLLM_DTYPE=float32 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 PYTHONUNBUFFERED=1 TRITON_MAX_SHARED_MEMORY=49152 python3 -m verl.trainer.main_ppo \ data.train_files=$HOME/data/gsm8k/fmt_rl/train.parquet \ data.val_files=$HOME/data/gsm8k/fmt_rl/test.parquet \ data.train_batch_size=1 \ data.max_prompt_length=256 \ data.max_response_length=252 \ actor_rollout_ref.model.path=$HOME/models/Qwen2.5-0.5B-Instruct \ actor_rollout_ref.actor.optim.lr=1e-6 \ actor_rollout_ref.actor.ppo_mini_batch_size=1 \ actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.name=vllm \ actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.tensor_model_parallel_size=1 \ actor_rollout_ref.rollout.gpu_memory_utilization=0.3 \ actor_rollout_ref.rollout.max_num_batched_tokens=512 \ ++actor_rollout_ref.rollout.enable_chunked_prefill=false \ ++actor_rollout_ref.fsdp_config.cpu_offload=true \ ++actor_rollout_ref.fsdp_config.offload_params=true \ actor_rollout_ref.rollout.max_num_seqs=1 \ actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=1 \ critic.optim.lr=1e-5 \ critic.model.path=$HOME/models/Qwen2.5-0.5B-Instruct \ critic.ppo_micro_batch_size_per_gpu=1 \ algorithm.kl_ctrl.kl_coef=0.001 \ trainer.logger=console \ trainer.val_before_train=False \ trainer.n_gpus_per_node=1 \ trainer.nnodes=1 \ trainer.save_freq=10 \ trainer.test_freq=10 \ trainer.total_epochs=2 2>&1 | tee verl_demo.log

注意：TRITON_MAX_SHARED_MEMORY=49152是关键环境变量，限制 Triton 使用的共享内存不超过硬件上限。

6. 尚未解决的问题：第9步固定崩溃

6.1 问题描述

尽管已解决前面所有问题，训练仍会在第 8~9 步左右再次触发：

OutOfResources: shared memory, Required: 81920, Hardware limit: 49152

此时模型已经完成前向传播，进入反向更新阶段。

6.2 初步分析

推测是FSDP 或 optimizer state 分片过程中某个 kernel 动态申请了大量共享内存，而 Triton 编译器未能自动降级 block size。

可能涉及模块：

FSDP 参数同步
AdamW 优化器状态更新
vLLM 内部调度 kernel

6.3 当前应对策略

开启 CPU offload：fsdp_config.cpu_offload=true
减小 micro batch 到 1
使用更低精度（FP32 已是最小妥协）

但这些措施仍未彻底解决问题。

求助社区：若有读者在类似低算力设备上成功运行 verl，请留言分享经验！

7. 总结：老卡跑 RL 的极限挑战

通过本次实践，我们系统性地梳理了在Tesla P40上运行verl框架所面临的三大核心障碍及应对方案：

CUDA 版本选择：必须使用 CUDA 11.8，禁用 CUDA 12+
数据类型限制：BF16 不可用，需全局替换为 float32
Attention 实现兼容性：FlashAttention-2 不支持 SM_61，必须切换为 eager 模式
显存管理策略：极小 batch size + CPU offload + 共享内存限制

虽然最终仍未能稳定完成整个训练周期，但至少实现了框架的启动和初步迭代。这也反映出当前开源 RL 框架普遍面向高端 GPU 设计，对旧设备极不友好。

对于资源有限的研究者或爱好者，建议：

优先选用更轻量的 RL 框架（如 TRL、deepspeed-chat）
或聚焦于推理+打分类任务，而非完整训练流程
若坚持使用 verl，建议升级至至少 A100/A40 级别 GPU

技术探索从来不是坦途，尤其是在资源受限的情况下。希望这份“血泪史”能为后来者点亮一盏灯。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

verl避坑全记录：CUDA、BF16、FlashAttention问题解决