保姆级教程：在Windows训练YOLOv5，Ubuntu转换rknn，最后部署到RK3588板子的完整跨平台工作流-平芜编程栈

跨平台YOLOv5模型训练与RK3588部署实战指南

引言

在边缘计算与嵌入式AI应用蓬勃发展的当下，如何高效地将深度学习模型从训练环境迁移到资源受限的边缘设备，成为开发者面临的关键挑战。本文将详细介绍一套完整的跨平台工作流：在Windows系统完成YOLOv5模型训练，通过Ubuntu环境转换为RKNN格式，最终部署到搭载NPU的RK3588开发板。这套方案特别适合需要在不同操作系统间协作完成AI落地的工程师团队和学生研究者。

1. Windows平台YOLOv5训练环境搭建

1.1 版本选择与环境配置

RK3588的NPU对模型架构有特定要求，必须使用YOLOv5 v5.0版本进行训练。这是许多开发者容易忽视的关键点：

git clone -b v5.0 https://github.com/ultralytics/yolov5.git cd yolov5 pip install -r requirements.txt

注意：切勿使用最新版YOLOv5，否则会导致后续RKNN转换失败。官方明确要求v5.0版本才能保证兼容性。

1.2 数据集准备与训练参数

建议采用以下目录结构组织训练数据：

yolov5/ ├── data/ │ └── custom.yaml # 自定义数据集配置文件 └── datasets/ └── custom/ ├── images/ │ ├── train/ │ └── val/ └── labels/ ├── train/ └── val/

典型训练命令示例：

python train.py --img 640 --batch 16 --epochs 100 --data data/custom.yaml --cfg models/yolov5s.yaml --weights yolov5s.pt

关键参数说明：

参数	推荐值	作用
--img	640	输入图像尺寸
--batch	8-16	根据GPU显存调整
--epochs	50-300	取决于数据集规模

2. 模型格式转换：从PyTorch到ONNX

2.1 关键代码修改

在导出ONNX前，必须修改export.py中的输出层代码：

# 修改前 # y = model(im) # 原始代码 # 修改后 y, _ = model(im) # 仅保留检测头输出

此修改可避免后续RKNN转换时出现输出维度不匹配的问题。

2.2 ONNX导出命令

使用以下命令生成优化后的ONNX模型：

python export.py --weights best.pt --img 640 --batch 1 --include onnx --simplify

导出成功后应检查：

使用Netron工具可视化模型结构
确认输入输出维度符合预期
验证模型文件大小合理（通常比.pt文件小30%-50%）

3. Ubuntu环境下的RKNN转换

3.1 环境准备与工具安装

推荐使用Miniconda创建隔离的Python环境：

conda create -n rknn python=3.8 conda activate rknn pip install -r requirements_cp38-1.4.0.txt

安装RKNN-Toolkit2：

pip install rknn_toolkit2-1.4.0*.whl

验证安装：

from rknn.api import RKNN # 不应报错

3.2 ONNX到RKNN的转换流程

转换脚本核心配置参数：

rknn = RKNN() rknn.config( target_platform='rk3588', quantize_input_node=True, # 启用输入量化 output_optimize=1, # 优化输出节点 batch_size=1 # 部署时批处理大小 ) ret = rknn.load_onnx(model='best.onnx') ret = rknn.build(do_quantization=True, dataset='./dataset.txt') ret = rknn.export_rknn('best.rknn')

常见问题解决方案：

转换失败：检查ONNX版本（建议1.8.0）
精度下降：调整量化参数或关闭量化
维度错误：确认模型输入输出与RK3588 NPU兼容

4. RK3588开发板部署实战

4.1 系统准备与工具链安装

推荐使用Ubuntu 20.04作为开发板系统，安装必要组件：

sudo apt update sudo apt install -y python3-opencv libopenblas-dev

从Rockchip官方获取NPU运行时库：

git clone https://github.com/rockchip-linux/rknpu2 cd rknpu2/runtime/RK3588/Linux/librknn_api sudo cp * /usr/lib/

4.2 模型部署与性能测试

典型部署目录结构：

deploy/ ├── best.rknn ├── rknn_yolov5_demo └── test_images/

运行推理测试：

./rknn_yolov5_demo best.rknn test_image.jpg

性能对比数据：

设备	推理时间(ms)	功耗(W)	帧率(FPS)
RK3588 NPU	69	3.2	14.5
RK3588 CPU	2160	5.8	0.46

4.3 实际应用集成技巧

在Python应用中调用NPU推理的推荐方式：

import subprocess import cv2 def npu_inference(model_path, image_path): cmd = ['./rknn_yolov5_demo', model_path, image_path] process = subprocess.Popen(cmd, stdout=subprocess.PIPE) process.wait() return cv2.imread('out.jpg') # 使用示例 result = npu_inference('best.rknn', 'input.jpg')

5. 跨平台协作的工程实践

5.1 文件传输与版本控制

推荐使用rsync进行高效文件同步：

# 从Windows传输到Ubuntu rsync -avzP best.onnx user@ubuntu_ip:/path/to/rknn_conversion/ # 从Ubuntu传输到RK3588 rsync -avzP best.rknn user@rk3588_ip:/home/ubuntu/deploy/

5.2 持续集成方案

建议的自动化流程：

Windows训练服务器：每日自动训练模型
CI服务器：自动触发ONNX转换和RKNN转换
RK3588设备：定期拉取最新模型进行测试

# 示例CI脚本片段 ssh user@windows "cd yolov5 && python train.py ..." scp user@windows:yolov5/best.pt . python export.py ... ssh user@ubuntu "cd rknn_toolkit && python convert.py ..." scp user@ubuntu:best.rknn deploy/

6. 性能优化进阶技巧

6.1 模型量化策略

RKNN支持多种量化模式：

量化类型	精度损失	速度提升	适用场景
动态量化	小(~3%)	1.2x	高精度要求
静态量化	中(~5%)	1.5x	平衡场景
二值化	大(~15%)	3x+	极速推理

6.2 内存优化配置

调整RKNN运行时参数：

rknn.init_runtime( target='rk3588', perf_debug=True, # 性能调试模式 eval_mem=True, # 内存评估 async_mode=False # 同步/异步执行 )

6.3 多模型流水线

利用RK3588的异构计算能力：

# NPU处理视觉模型 npu_result = npu_inference('detection.rknn', image) # CPU处理后处理逻辑 cpu_result = post_process(npu_result) # GPU加速可视化 gpu_image = visualize_result(cpu_result)

7. 常见问题排查手册

7.1 训练阶段问题

问题1：训练loss不下降

检查学习率设置（建议0.01-0.001）
验证数据标注正确性
尝试更小的模型尺寸（如yolov5s）

问题2：显存不足

减小batch size（可低至4）

使用梯度累积：

python train.py --batch 4 --accumulate 4

7.2 转换阶段问题

问题1：ONNX导出失败

确保PyTorch版本≤1.8.0
检查模型是否有动态维度
尝试--dynamic参数

问题2：RKNN转换精度下降严重

增加量化校准图片数量（建议≥100）
关闭quantize_input_node

使用FP16模式：

rknn.config(quantized_dtype='asymmetric_quantized-16')

7.3 部署阶段问题

问题1：推理结果异常

检查输入数据预处理是否一致
验证模型输入输出节点名称
测试同一张图片在PC和板端的结果

问题2：NPU未启用

检查dmesg | grep npu是否有错误
确认librknn_api版本匹配
验证芯片温度是否正常

8. 扩展应用与进阶方向

8.1 多模型集成方案

利用RK3588的多核NPU优势：

级联模型：先用小模型快速筛选，再用大模型精细识别
并行模型：同时运行分类和检测模型
模型切片：将大模型拆分为多个子模型分时执行

8.2 视频流处理优化

实现高帧率视频分析：

import queue from threading import Thread frame_queue = queue.Queue(maxsize=3) def capture_thread(): while True: ret, frame = cap.read() frame_queue.put(frame) def inference_thread(): while True: frame = frame_queue.get() result = npu_inference(model, frame) display_result(result) Thread(target=capture_thread).start() Thread(target=inference_thread).start()

8.3 边缘-云协同计算

混合计算架构设计：

边缘侧：运行轻量级模型进行实时检测
云端：处理复杂场景和模型重训练
通信协议：使用MQTT或gRPC进行数据同步

# 边缘设备代码片段 if confidence < 0.7: # 低置信度样本 upload_to_cloud(image) cloud_result = wait_for_cloud_response() update_local_model(cloud_result)

保姆级教程：在Windows训练YOLOv5，Ubuntu转换rknn，最后部署到RK3588板子的完整跨平台工作流