Retinaface+CurricularFace部署教程：GPU共享（MIG）环境下多租户隔离部署-平芜编程栈

Retinaface+CurricularFace部署教程：GPU共享（MIG）环境下多租户隔离部署

你是不是也遇到过这样的问题：团队里好几个项目都要跑人脸识别，但只有一块A100或A800显卡？要么排队等资源，要么强行共用导致互相干扰、响应变慢、甚至模型崩溃。更头疼的是，不同业务线对人脸比对的精度、速度、并发量要求还不一样——有的要实时核验，有的做离线批量分析，硬塞进同一个环境里根本没法管。

今天这篇教程就来解决这个实际痛点。我们不讲虚的架构图，也不堆参数调优理论，而是手把手带你把RetinaFace+CurricularFace这套成熟的人脸识别方案，真正落地到NVIDIA GPU的MIG（Multi-Instance GPU）环境中。部署完成后，你能做到：同一块A100上同时运行3个完全隔离的推理服务，彼此内存不越界、算力不抢占、日志不混杂，每个租户都像独占一块GPU一样稳定可靠。

整个过程不需要改一行模型代码，不重装驱动，不折腾容器网络，所有操作都在镜像内完成。哪怕你之前没碰过MIG，只要会敲几条命令，20分钟就能跑通第一个隔离实例。

1. 为什么必须用MIG做多租户隔离？

先说结论：传统Docker+GPU共享方式，在人脸识别这类低延迟、高吞吐场景下，本质上是“伪隔离”。

你可能试过用nvidia-docker run --gpus all启动多个容器，表面看是“分了GPU”，但实际运行时会发现几个典型问题：

多个容器同时调用CUDA kernel，显存带宽被争抢，单次推理耗时从80ms飙升到220ms；
某个容器OOM崩溃，整个GPU上下文被重置，其他正在运行的服务瞬间中断；
无法限制单个租户最多用多少显存，一个业务突发流量就把整块卡拖垮；
日志、监控、错误堆栈全混在一起，出问题根本分不清是谁干的。

而MIG不是软件层面的“切分”，它是NVIDIA在Ampere架构（A100/A800）GPU硬件层实现的物理级资源划分。开启MIG后，一块A100（40GB）可被划分为最多7个独立GPU实例，每个实例拥有：

独立的显存（如5GB/实例）、
独立的计算单元（SM）、
独立的PCIe通道、
独立的故障域（一个实例挂了，其他完全不受影响）。

换句话说：MIG让一块物理GPU，变成了多块逻辑上互不干扰的“小GPU”。这对需要长期稳定运行、又有多租户诉求的人脸识别服务来说，几乎是目前最干净、最可控的解法。

注意：本教程默认你已具备基础Linux和Docker操作能力，且服务器搭载的是支持MIG的GPU（A100/A800/L40）。不支持V100、T4、RTX系列。

2. 部署前准备：确认硬件与驱动状态

别急着拉镜像，先花2分钟确认你的GPU是否已正确启用MIG模式。这一步跳过，后面90%的问题都出在这儿。

2.1 检查GPU型号与MIG支持状态

登录服务器，执行：

nvidia-smi -L

如果输出类似：

GPU 0: NVIDIA A100-SXM4-40GB (UUID: GPU-xxxxx)

说明是A100，支持MIG。再执行：

nvidia-smi -i 0 --query-gpu=mig.mode.current

正常应返回：

MIG Mode: Enabled

如果显示Disabled，需先启用MIG（仅需一次）：

# 切换到root用户 sudo su - # 关闭所有GPU进程（确保无容器/训练任务在跑） nvidia-smi -r # 启用MIG（重启GPU硬件模块） nvidia-smi -i 0 -mig 1 # 查看当前MIG配置 nvidia-smi mig -lgi

你会看到类似输出：

GPU 0: MIG devices: ID DEVICE ID TYPE NAME 1 1 1g.5gb mig-1g.5gb 2 2 1g.5gb mig-1g.5gb 3 3 1g.5gb mig-1g.5gb ...

这表示GPU 0已被划分为多个1g.5gb实例（即每个实例分配1个GPU计算单元 + 5GB显存），足够运行轻量级人脸比对服务。

2.2 验证Docker与NVIDIA Container Toolkit兼容性

确保你安装的是新版NVIDIA Container Toolkit（v1.13+），老版本不支持MIG设备映射：

nvidia-ctk --version # 应输出类似：1.13.4

若版本过低，请按NVIDIA官方指南升级。

3. 镜像拉取与MIG实例绑定部署

现在开始核心操作：把RetinaFace+CurricularFace镜像，精准部署到指定MIG实例上。

3.1 拉取并检查镜像

本教程使用CSDN星图镜像广场提供的预构建镜像（已预装全部依赖）：

docker pull registry.cn-hangzhou.aliyuncs.com/csdn_ai/retinaface_curricularface:latest

拉取完成后，查看镜像信息：

docker images | grep retinaface # 输出应包含镜像ID、大小（约4.2GB）、创建时间

3.2 启动第一个租户容器（绑定MIG实例1）

假设我们要为“考勤系统”分配第一个MIG实例（ID=1），命令如下：

docker run -itd \ --name face-tenant-attendance \ --gpus '"device=1"' \ -p 8080:8000 \ -v /data/attendance:/workspace/data \ registry.cn-hangzhou.aliyuncs.com/csdn_ai/retinaface_curricularface:latest

关键参数说明：

--gpus '"device=1"'：强制将容器绑定到MIG实例ID=1（注意引号格式，必须是双引号包裹的JSON字符串）；
-p 8080:8000：将容器内默认Web服务端口8000映射到宿主机8080；
-v /data/attendance:/workspace/data：挂载本地目录，用于存放考勤图片和日志。

启动后，检查容器是否成功运行并识别到MIG设备：

docker exec -it face-tenant-attendance nvidia-smi -L

你应该只看到一条输出：

GPU 0: Device 1 (UUID: MIG-GPU-xxxxx)

说明容器只看到自己专属的MIG实例，完全看不到其他实例，实现了真正的硬件隔离。

3.3 启动第二个租户容器（绑定MIG实例2）

为“门禁核验系统”分配实例2：

docker run -itd \ --name face-tenant-access \ --gpus '"device=2"' \ -p 8081:8000 \ -v /data/access:/workspace/data \ registry.cn-hangzhou.aliyuncs.com/csdn_ai/retinaface_curricularface:latest

此时，两个容器分别运行在独立MIG实例上，彼此显存、计算资源、故障域完全隔离。

小技巧：用nvidia-smi mig -lgi可实时查看各MIG实例的显存占用、GPU利用率，验证隔离效果。

4. 容器内推理服务启动与验证

镜像已预置Flask Web服务，无需额外配置即可提供HTTP接口。我们直接在容器内验证。

4.1 进入容器并启动服务

以第一个租户为例：

docker exec -it face-tenant-attendance bash

进入后，激活环境并启动服务：

cd /root/Retinaface_CurricularFace conda activate torch25 python app.py --host 0.0.0.0 --port 8000

服务启动后，终端会输出：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

保持该终端运行（或用nohup后台启动），然后新开一个终端窗口，测试接口：

curl -X POST "http://localhost:8080/compare" \ -F "image1=@/workspace/data/person_a.jpg" \ -F "image2=@/workspace/data/person_b.jpg"

预期返回JSON：

{ "similarity": 0.924, "is_same_person": true, "message": "两张图片中的人脸高度匹配" }

4.2 验证多租户并发稳定性

现在同时向两个租户发起请求，观察是否互不影响：

# 终端1：持续压测考勤租户 ab -n 100 -c 10 http://localhost:8080/health # 终端2：同时调用门禁租户接口 curl http://localhost:8081/compare -F "image1=@test1.jpg" -F "image2=@test2.jpg"

你会发现：

两个服务响应时间稳定（均值<150ms）；
nvidia-smi中两个MIG实例的GPU利用率各自独立波动；
任意一个容器崩溃，另一个始终在线。

这才是生产环境真正需要的“多租户”。

5. 生产级优化建议：不只是能跑，更要跑得稳

MIG解决了资源隔离问题，但要让RetinaFace+CurricularFace在真实业务中扛住压力，还需几个关键调整：

5.1 显存与批处理平衡

CurricularFace单次推理约占用1.2GB显存。在1g.5gb MIG实例中，不要开启batch推理（即一次传多张图），否则易OOM。镜像默认inference_face.py是单图处理，这点很合理。

如果你确实需要批量比对（如1:N检索），建议：

升级到2g.10gb MIG配置（需重新划分）；
或改用CPU+GPU混合推理：人脸检测用GPU，特征提取用CPU，降低显存峰值。

5.2 日志与监控分离

每个租户容器的日志必须独立落盘，避免混杂。在docker run命令中加入：

--log-driver json-file \ --log-opt max-size=10m \ --log-opt max-file=3 \

同时，挂载不同日志路径：

-v /var/log/face-attendance:/var/log/app \

5.3 自动化健康检查

在容器启动脚本中加入探针，供K8s或Docker Swarm调度：

# 在app.py同级目录新建health.sh #!/bin/bash curl -f http://localhost:8000/health > /dev/null 2>&1

Dockerfile中添加：

HEALTHCHECK --interval=30s --timeout=3s --start-period=5s --retries=3 \ CMD /root/Retinaface_CurricularFace/health.sh

6. 常见问题与排查指南

6.1 “nvidia-smi --gpus device=1” 报错：invalid device specification

原因：Docker版本过低（<20.10）或NVIDIA Container Toolkit未正确安装。

解决：升级Docker至20.10+，并确认/etc/docker/daemon.json中包含：

{ "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } }, "default-runtime": "runc" }

然后重启Docker：sudo systemctl restart docker

6.2 容器内`nvidia-smi`显示“No running processes”，但服务响应极慢

这是典型MIG实例未正确绑定的表现。请检查：

docker inspect face-tenant-attendance | grep -A 10 Devices是否包含"DeviceIDs": ["1"]；
宿主机nvidia-smi mig -lgi中实例1是否处于ACTIVE状态；
镜像是否为最新版（旧版可能未适配CUDA 12.1+MIG）。

6.3 推理结果相似度普遍偏低（<0.3）

非MIG相关问题，大概率是输入图像质量导致：

检查图片是否为正面、清晰、光照均匀；
避免使用手机远距离拍摄的小图（建议分辨率≥640×480）；
若必须处理侧脸，可在inference_face.py中修改RetinaFace的confidence_threshold参数（默认0.7，可降至0.5）。

7. 总结：MIG不是银弹，但它是人脸识别多租户的最优解

回顾整个部署过程，你其实只做了三件事：

确认硬件支持：用两条命令验证A100+MIG就绪；
精准绑定实例：用--gpus '"device=1"'把容器钉死在指定MIG上；
验证隔离效果：通过并发压测和nvidia-smi实时监控，亲眼看到资源不越界。

没有复杂的Kubernetes YAML，没有晦涩的CUDA编程，也没有反复编译的痛苦。这就是MIG的价值——它把“多租户隔离”这件事，从软件工程难题，降维成一条清晰的运维指令。

当然，MIG也有边界：它只适用于Ampere及更新架构GPU；它不能替代模型优化（比如量化、剪枝）；它也不能解决算法本身在极端场景下的误判。但当你面对的是“如何让多个业务安全、稳定、公平地共享一块昂贵GPU”这个现实命题时，MIG给出的答案，简洁、可靠、开箱即用。

下一步，你可以尝试：

为每个租户配置Prometheus监控指标；
结合Traefik做反向代理，对外统一暴露/attendance/compare和/access/compare路由；
将整个流程封装为Ansible Playbook，一键完成多节点部署。

技术最终要服务于人。而让人脸识别服务既强大又可控，正是我们每天在做的事。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Retinaface+CurricularFace部署教程：GPU共享（MIG）环境下多租户隔离部署