YOLOv5部署到边缘设备：基于PyTorch Mobile的尝试-平芜编程栈

YOLOv5部署到边缘设备：基于PyTorch Mobile的尝试

在智能摄像头、工业质检终端和自动驾驶小车日益普及的今天，一个共同的技术挑战浮现出来：如何让高精度的目标检测模型在算力有限、内存紧张的边缘设备上稳定运行？YOLOv5 作为当前最受欢迎的目标检测框架之一，虽然在服务器端表现优异，但要真正落地到实际场景中，必须跨越从“训练好”到“跑得动”的鸿沟。

这个问题背后涉及一整套工程链条——从利用 GPU 加速完成高效训练，到将模型压缩优化并导出为轻量格式，最终嵌入资源受限的设备完成实时推理。整个过程若依赖手动配置环境、逐个解决兼容性问题，开发成本极高。幸运的是，PyTorch 生态近年来推出的两项关键技术为此提供了系统性解决方案：PyTorch-CUDA 镜像用于训练加速，PyTorch Mobile 实现端侧部署。本文将结合具体实践，完整还原这一“云训边推”的技术路径。

容器化训练：用 PyTorch-CUDA 镜像打通第一公里

深度学习项目的起点往往是搭建开发环境。传统方式下，安装 CUDA 驱动、cuDNN 库、匹配 PyTorch 版本等步骤极易因版本冲突导致失败，“在我机器上能跑”成了团队协作中的经典痛点。而pytorch-cuda:v2.8这类预集成镜像的出现，彻底改变了这一局面。

这类镜像本质上是一个封装了完整 GPU 计算栈的 Docker 容器，内含 PyTorch 2.8、CUDA 12.x、cuDNN 及常用工具链（如 OpenCV、Jupyter Notebook），并通过 NVIDIA Container Toolkit 实现对宿主机 GPU 的直通访问。开发者无需关心底层驱动是否匹配，只需一条命令即可启动具备多卡训练能力的环境：

docker run -it --gpus all \ -v $(pwd)/yolov5:/workspace/yolov5 \ -p 8888:8888 \ pytorch-cuda:v2.8 \ bash

挂载本地代码目录后，进入容器即可直接运行 YOLOv5 的训练脚本：

cd /workspace/yolov5 python train.py --img 640 --batch 16 --epochs 50 --data coco.yaml --weights yolov5s.pt --device 0

这里的--gpus all参数会自动识别所有可用显卡，PyTorch 内部通过 CUDA 后端执行卷积运算与反向传播，相比纯 CPU 训练速度提升可达 3~5 倍。更重要的是，由于所有成员使用同一镜像，实验结果高度可复现，极大提升了团队协作效率。

这种容器化方案尤其适合 YOLOv5 这类计算密集型模型。它不仅简化了部署流程，还为后续模型导出奠定了基础——因为只有在一个干净、一致的环境中导出的模型，才更有可能在不同平台上稳定运行。

模型导出：从动态图到静态图的关键一步

训练完成后，下一步是让模型脱离 Python 环境，在没有完整解释器支持的设备上运行。这正是TorchScript发挥作用的地方。作为 PyTorch 的模型序列化机制，TorchScript 能将原本依赖 Python 动态特性的 eager mode 模型转换为独立的静态计算图，从而摆脱对 Python 的依赖。

对于结构相对固定的 YOLOv5 来说，最常用的导出方式是torch.jit.trace：

import torch from models.experimental import attempt_load # 加载训练好的模型 model = attempt_load('weights/yolov5s.pt', map_location='cpu') model.eval() # 构造示例输入 example_input = torch.randn(1, 3, 640, 640) # 追踪模型前向过程 traced_script_module = torch.jit.trace(model, example_input) # 保存为可部署格式 traced_script_module.save("yolov5s_mobile.pt")

上述代码生成的.pt文件即为可在移动端加载的 TorchScript 模型。它不包含任何 Python 函数调用或控制流语句，仅保留张量操作序列，因此可以在 C++ 环境中高效执行。

需要注意的是，trace是基于具体输入进行路径追踪的，若模型中存在条件分支（例如根据置信度跳过某些层），这些逻辑可能不会被正确捕获。此时应改用torch.jit.script，它通过解析 Python 代码 AST 来保留控制流结构，更适合复杂模型。但对于标准 YOLOv5 结构，trace已足够可靠。

此外，在导出前建议对模型进行轻量化处理：
- 使用通道剪枝减少冗余卷积核；
- 采用 INT8 量化降低权重精度，缩小模型体积并提升推理速度；
- 调整输入分辨率（如改为 320×320）以适应边缘设备性能限制。

这些优化虽会轻微影响精度，但在多数工业场景下可在速度与准确率之间取得良好平衡。

边缘部署：PyTorch Mobile 如何在终端运行模型

当yolov5s_mobile.pt文件生成后，就可以将其部署到目标设备上了。PyTorch Mobile 支持多种平台，包括 Android、iOS 和基于 ARM 的嵌入式 Linux 系统（如 Jetson Nano、RK3588）。其核心优势在于：与训练框架同源，无需中间格式转换。

以 Linux 嵌入式设备为例，部署流程如下：

在设备上交叉编译或安装 PyTorch Mobile 运行时库；
将.pt模型文件拷贝至设备；
编写 C++ 或 Python 接口加载模型并执行推理。

#include <torch/script.h> #include <iostream> int main() { // 加载模型 std::shared_ptr<torch::jit::script::Module> module; try { module = torch::jit::load("yolov5s_mobile.pt"); } catch (const c10::Error& e) { std::cerr << "Error loading model\n"; return -1; } // 构建输入张量（需预处理图像） torch::Tensor input = torch::randn({1, 3, 640, 640}); // 执行推理 at::Tensor output = module->forward({input}).toTensor(); std::cout << "Output shape: " << output.sizes() << '\n'; return 0; }

该运行时体积小巧（编译后约 5~10MB），且支持常见神经网络算子（卷积、批归一化、ReLU、上采样等），足以满足 YOLOv5 的需求。更重要的是，由于整个流程都在 PyTorch 体系内完成，避免了跨框架转换带来的精度损失和调试难题。

相比之下，若选择 TensorFlow Lite 或 ONNX Runtime，则需要额外引入转换工具链，且往往面临算子不支持、输出偏差等问题。尤其是在处理 YOLO 系列特有的跨阶段连接（PANet）和动态 NMS 时，容易出现兼容性问题。而 PyTorch Mobile 因原生支持这些结构，集成更为顺畅。

系统架构与工程实践

完整的部署架构通常分为三层：

+----------------------------+ | 边缘设备（终端层） | | - 运行 PyTorch Mobile | | - 加载 yolov5s_mobile.pt | | - 实时视频流目标检测 | +-------------+--------------+ | v +-----------------------------+ | 训练服务器（云端/本地） | | - 使用 PyTorch-CUDA-v2.8 | | - GPU 加速训练 YOLOv5 | | - 导出 TorchScript 模型 | +-----------------------------+ | v +-----------------------------+ | 模型传输与更新通道 | | - SCP / OTA / API 下发 | | - 更新边缘端模型文件 | +-----------------------------+

这是一种典型的“云训边推”AIoT 架构。训练在高性能服务器上完成，推理则下沉至终端，既保证了模型质量，又降低了延迟和带宽消耗。模型更新可通过安全通道（如 HTTPS API 或加密 SCP）远程推送，实现 OTA 升级。

在实际工程中，还需注意以下几点最佳实践：