实战记录：我把YOLOv5缺陷检测模型“塞进”RK3588，NPU推理速度实测对比CPU-平芜编程栈

工业质检实战：YOLOv5模型在RK3588 NPU上的高效部署与性能优化

去年夏天，我们团队接手了一个金属零件表面缺陷检测项目。产线质检员每天要检查上万件产品，肉眼识别不仅效率低下，漏检率还居高不下。经过多方技术选型，最终决定采用YOLOv5模型结合RK3588 NPU的方案——这个组合在实际产线上实现了每秒15帧的实时检测，误检率控制在0.3%以下。本文将完整呈现从模型训练到边缘部署的全链路实战经验，特别是NPU加速背后的技术细节与调优技巧。

1. 技术选型：为什么是YOLOv5+RK3588？

在工业视觉领域，技术选型往往决定着项目成败。我们对比了三种主流方案：

方案	推理速度(ms)	功耗(W)	开发成本	适用场景
云端GPU服务器	50-100	200+	高	高精度复杂场景
嵌入式CPU方案	2000+	15	低	非实时简单检测
RK3588 NPU方案	60-80	8	中	边缘实时检测

选择RK3588的三大理由：

NPU算力与能效比：6TOPS算力下功耗仅5W，是传统CPU方案的1/10能耗
国产化支持：完整的工具链和文档支持，避免被国外芯片"卡脖子"
多模态接口：支持同时接入4路摄像头，满足产线多工位检测需求

实际案例：某汽车零部件厂在部署后，单条产线年节省质检人力成本超80万元，缺陷检出率从92%提升到99.6%。

2. 模型训练：版本兼容性陷阱与数据增强技巧

2.1 版本适配的惨痛教训

我们最初使用YOLOv7版本训练得到的pt模型，在转换为rknn格式时遭遇了各种诡异错误。后来发现RKNN-Toolkit2对YOLOv5的版本有严格限制：

# 必须使用特定commit版本的YOLOv5 git clone https://github.com/ultralytics/yolov5.git cd yolov5 git checkout c23a441c9df7ca9b1f275e8c8719c949269160d1

关键发现：

v5.0版本输出的ONNX算子与RKNN转换器完全兼容
新版本使用的SiLU激活函数需要特殊处理才能转换
输入分辨率必须固定为640x640（NPU硬件限制）

2.2 工业数据增强策略

针对金属表面缺陷的特点，我们设计了特殊的数据增强组合：

# 自定义data.yaml配置 train: - images/train val: - images/val nc: 4 # 划痕、凹陷、锈斑、气泡 names: ['scratch', 'dent', 'rust', 'bubble'] # 增强参数 hsv_h: 0.015 # 模拟光照变化 hsv_s: 0.7 # 增强色差敏感度 flipud: 0.5 # 上下翻转增强 mosaic: 1.0 # 使用mosaic增强

3. 模型转换：从PyTorch到RKNN的完整链路

3.1 关键转换节点性能对比

我们记录了各阶段模型的性能变化：

模型格式	大小(MB)	推理速度(ms)	mAP@0.5
best.pt	14.7	120	0.893
best.onnx	15.2	110	0.891
best.rknn	7.8	68	0.885

量化带来的影响：

模型体积缩小48%
推理速度提升38%
精度损失控制在0.8%以内

3.2 ONNX转换的隐藏参数

export.py脚本中有几个容易被忽视的关键参数：

python export.py \ --weights best.pt \ --img 640 \ --batch 1 \ --device 0 \ # 指定GPU设备 --simplify \ # 启用模型简化 --opset 12 \ # 指定ONNX算子集版本 --include onnx

警告：不要启用动态维度(--dynamic)，RKNN转换器只支持固定尺寸输入

4. RK3588部署实战：从Demo到产线级应用

4.1 基准测试：NPU vs CPU

在StationPC M3开发板上进行的对比测试：

指标	NPU模式	CPU模式	提升倍数
单帧耗时(ms)	69	2160	31x
最大吞吐量	15FPS	0.5FPS	30x
功耗(W)	5.2	12.8	2.5x

测试命令：

# NPU模式 ./rknn_yolov5_demo model.rknn test.jpg # CPU模式 taskset -c 0 ./yolov5_demo model.pt test.jpg

4.2 多线程调优技巧

通过绑定CPU核心和内存预分配，我们进一步提升了推理稳定性：

// 示例：NPU多线程调用优化 rknn_context ctx; rknn_init(&ctx, model_path, 0, 0, NULL); // 绑定大核CPU cpu_set_t cpuset; CPU_ZERO(&cpuset); CPU_SET(4, &cpuset); // RK3588的A76大核 pthread_setaffinity_np(pthread_self(), sizeof(cpu_set_t), &cpuset); // 预分配输入输出内存 rknn_input_output_num io_num; rknn_query(ctx, RKNN_QUERY_IN_OUT_NUM, &io_num, sizeof(io_num)); rknn_input inputs[io_num.n_input]; rknn_output outputs[io_num.n_output];