自动驾驶感知入门：PETRV2-BEV模型训练全流程-平芜编程栈

自动驾驶感知入门：PETRV2-BEV模型训练全流程

1. 引言：从鸟瞰视角看懂自动驾驶的“眼睛”

想象一下，你坐在一辆自动驾驶汽车里，它没有激光雷达，只靠车身上的几个摄像头，就能像鸟一样俯瞰整个路面，精准识别出周围的车辆、行人、自行车，甚至路边的锥桶。这就是BEV（鸟瞰图）感知技术正在做的事情，它让汽车拥有了“上帝视角”。

在众多BEV方案中，PETRV2模型是一个绕不开的名字。它巧妙地将摄像头拍摄的2D图像，通过Transformer“翻译”成3D的鸟瞰图空间，实现了又快又准的纯视觉感知。对于想入门自动驾驶感知的同学来说，亲手训练一个PETRV2-BEV模型，是理解这套技术最好的方式。

本文将带你走完这个完整的训练流程。我们会使用Paddle3D这个国产深度学习框架，在星图AI算力平台上，从零开始，一步步完成环境准备、数据下载、模型训练、效果评估和结果可视化。整个过程就像搭积木，我会把每个步骤都拆解得清清楚楚，确保你跟着做就能跑通。

2. 环境准备：搭建你的专属AI实验室

2.1 激活Paddle3D专属环境

第一步，我们需要进入一个已经配置好的Python环境。这个环境里预装了PaddlePaddle深度学习框架和Paddle3D三维视觉工具包，省去了我们自己安装各种依赖的麻烦。

打开终端，输入下面这行命令：

conda activate paddle3d_env

看到命令行前缀变成(paddle3d_env)就说明成功了。这就像你走进了一个已经摆满工具的工作间，可以直接开始干活。

2.2 下载模型“种子”：预训练权重

训练一个复杂的模型从零开始非常耗时，就像种树从种子开始培育。幸运的是，官方提供了一个已经在大数据集上“预习”过的模型权重，我们可以直接拿来用，这能大大加快训练速度，效果也更好。

运行下面的命令，把这个“种子”下载到你的工作目录：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

这个文件model.pdparams就是PETRV2模型的预训练权重，它基于VoVNet网络，并且使用了GridMask数据增强技巧，是一个很好的起点。

2.3 准备“教材”：下载NuScenes迷你数据集

模型需要数据来学习，就像学生需要课本。我们选用自动驾驶领域最著名的公开数据集之一——NuScenes。为了快速验证流程，我们先下载它的一个迷你版本v1.0-mini。

依次执行以下命令：

# 下载数据集压缩包 wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz # 创建存放数据的文件夹 mkdir -p /root/workspace/nuscenes # 解压数据到指定文件夹 tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

这个迷你数据集虽然小，但“麻雀虽小，五脏俱全”，包含了环视摄像头拍摄的图像、车辆自身的定位信息，以及各种交通参与者的精确标注框，足够我们跑通整个训练流程。

3. 核心实战：训练你的第一个BEV模型

3.1 数据预处理：把原始数据变成模型能读懂的格式

原始数据集就像一本未经整理的百科全书，模型直接读起来很费劲。我们需要先用一个工具脚本，把数据整理成模型喜欢的格式。

进入Paddle3D的代码目录，并运行预处理脚本：

cd /usr/local/Paddle3D # 清理可能存在的旧索引文件 rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f # 生成新的数据索引文件 python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个脚本会生成两个重要的.pkl文件，它们就像是数据的“目录”和“索引”，告诉模型每一张图片在哪里、里面有什么物体。

3.2 先做个“摸底考试”：评估预训练模型

在开始训练之前，我们先让加载了预训练权重的模型在迷你验证集上做一次测试，看看它现在的水平如何。这就像转学生入学前先做一次摸底考试。

运行评估命令：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

你会看到类似下面的输出结果：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.446 0.626 0.168 1.735 0.000 1.000 truck 0.381 0.500 0.199 1.113 0.000 1.000 ...

这里有几个关键指标需要了解：

mAP：平均精度，越高越好，是检测准不准的核心指标。目前是0.2669，有较大提升空间。
NDS：NuScenes检测分数，综合了多种误差的总体评分。
Per-class results：可以看到模型对“小汽车”（car）检测得最好（AP=0.446），但对“自行车”（bicycle）等小目标就比较吃力。

3.3 启动模型训练：让模型开始“学习”

现在，真正的训练开始了。我们将基于预训练权重，在迷你数据集上进行100轮的训练（epochs）。

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

我来解释一下这几个关键参数：

--batch_size 2：每次训练用2张图片。如果你的GPU显存更大，可以调高这个值，训练会更快。
--learning_rate 1e-4：学习率，相当于模型学习的“步幅”。步子太大容易学歪，太小又学得慢，1e-4是个常用的起点。
--save_interval 5：每训练5轮就保存一次模型快照。
--do_eval：训练过程中，每轮结束后都在验证集上评估一次，方便我们随时看效果。

训练开始后，终端会不断打印损失（loss）下降的过程，你可以直观地看到模型正在一点点进步。

3.4 可视化训练过程：用眼睛“监控”学习曲线

光看数字不够直观，我们可以启动一个可视化工具，像看股票走势图一样看模型的训练情况。

首先启动VisualDL服务：

visualdl --logdir ./output/ --host 0.0.0.0

由于我们通常在远程服务器上训练，需要把服务器的端口映射到本地才能用浏览器访问。执行端口转发命令（注意替换成你自己的服务器地址和端口）：

ssh -p 你的端口号 -L 0.0.0.0:8888:localhost:8040 你的用户名@你的服务器地址

然后，在你的本地电脑浏览器里打开http://localhost:8888。你会看到一个漂亮的仪表盘，里面最重要的两张图是：

Loss曲线：应该随着训练轮数平稳下降。
mAP曲线：应该随着训练轮数稳步上升。

如果曲线走势健康，说明训练正常；如果loss剧烈震荡或mAP不升反降，可能就需要调整学习率等参数了。

3.5 导出训练好的模型：为部署做准备

训练完成后，模型权重保存在output/目录下。我们需要把最好的那个模型（通常是best_model）导出成一种更高效、更适合部署的格式（静态图）。

# 清理旧模型，创建新目录 rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model # 执行模型导出 python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出成功后，在nuscenes_release_model文件夹里，你会看到model.pdmodel和model.pdiparams等文件。这就是最终可以用于集成到自动驾驶系统中的模型文件。

3.6 效果可视化：看看模型“眼里”的世界

最后，也是最激动人心的一步：让我们用训练好的模型去处理真实的道路场景，并把它的识别结果画出来。

运行演示脚本：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

脚本会读取数据集中的一些样本图片，用你的模型进行推理，然后在图片上画出3D的检测框。你会看到模型在鸟瞰图视角下，为车辆、行人等目标都框出了位置。这是对你训练成果最直接的检验！

4. 进阶挑战：在更复杂的数据集上微调（可选）

如果你已经成功跑通了迷你数据集，并且想挑战更真实、更复杂的场景，可以尝试在XTREME1数据集上微调模型。这个数据集包含了雨、雾、夜间等极端天气和光照条件，对模型的鲁棒性是极大的考验。

流程和之前类似，但需要使用专门的数据处理脚本：

# 1. 准备XTREME1数据集（假设数据已放在/root/workspace/xtreme1_nuscenes_data） cd /usr/local/Paddle3D python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/ # 2. 评估预训练模型在极端场景下的表现（通常会很差） python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ # 3. 启动微调训练 python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-5 \ # 注意：微调时学习率通常要设得更小 --save_interval 5 \ --do_eval

完成XTREME1上的训练后，你会发现模型在恶劣环境下的检测能力得到了显著提升。这完整地演示了如何将一个通用模型，通过微调适配到特定的、具有挑战性的应用场景中。