MedGemma X-Ray部署教程：Kubernetes集群中医疗AI服务编排实践-平芜编程栈

MedGemma X-Ray部署教程：Kubernetes集群中医疗AI服务编排实践

1. 为什么要在Kubernetes里跑MedGemma X-Ray？

你可能已经试过在本地或单台服务器上启动MedGemma X-Ray——上传一张胸片，输入“肺部是否有浸润影？”，几秒后就看到结构化报告弹出来。这种体验很酷，但真要把它用进医院信息科、教学平台或者科研协作环境，单点部署很快会遇到几个现实问题：

医学生同时访问时界面卡顿，响应变慢
模型加载耗时长，每次重启都要等半分钟
GPU资源被占满，其他AI服务没法并行运行
没有自动恢复机制，进程挂了得人工登录服务器重启
日志分散、状态难追踪，出了问题不知道从哪查

这些问题，恰恰是Kubernetes最擅长解决的。它不是为了“炫技”才上容器编排，而是让像MedGemma X-Ray这样的专业AI服务真正具备可伸缩、可观测、可维护、可交付的工程属性。

本文不讲抽象概念，也不堆yaml参数。我们直接带你把已有的Gradio版MedGemma X-Ray，平滑迁移到Kubernetes集群中——从零开始，不重写代码、不修改模型、不替换框架，只做三件事：打包成镜像、定义服务编排逻辑、落地可观测性支撑。整个过程你只需要一台装好kubectl和Docker的机器，以及一个能连通的K8s集群（哪怕只是本地的k3s或minikube）。

2. 部署前准备：理清现有脚本与依赖关系

在动手写YAML之前，先花5分钟看清你手头已有的“积木块”。MedGemma X-Ray当前是一套基于Gradio的Python应用，通过shell脚本管理生命周期。我们要做的，不是推翻重来，而是把这套逻辑“翻译”成Kubernetes能理解的语言。

2.1 现有脚本行为再确认

你已经有三个核心脚本：start_gradio.sh、stop_gradio.sh、status_gradio.sh。它们本质上在做这些事：

启动时：校验Python路径 → 检查端口空闲 → 后台运行gradio_app.py→ 记录PID → 写日志
停止时：读PID → 发送SIGTERM → 清理文件 → 补救式kill -9
查状态：读PID → 查进程 → 查端口 → 尾部日志

Kubernetes原生就提供进程保活（liveness probe）、端口监听（service）、日志聚合（kubectl logs）、优雅终止（preStop hook）——这些功能，恰好能替代你原来写的shell逻辑。

2.2 关键路径与环境变量映射

本地路径/变量	Kubernetes中对应处理方式
`/opt/miniconda3/envs/torch27/bin/python`	构建镜像时固化Python环境，不依赖宿主机conda
`CUDA_VISIBLE_DEVICES=0`	通过`resources.limits.nvidia.com/gpu: 1`声明GPU资源，由kubelet自动注入设备
`MODELSCOPE_CACHE=/root/build`	改为挂载`emptyDir`或`hostPath`卷，避免容器重启后缓存丢失
`/root/build/logs/gradio_app.log`	不再写本地文件，直接输出到stdout/stderr，由K8s日志系统统一采集
`/root/build/gradio_app.pid`	完全弃用——K8s不依赖PID文件管理进程，用probe和restartPolicy替代

关键提醒：不要试图在容器里保留/root/build这个路径。Kubernetes里没有“root用户登录服务器”的概念，所有路径都应面向容器内视角设计。你的应用入口不再是bash /root/build/start_gradio.sh，而是直接执行python gradio_app.py。

3. 构建生产级Docker镜像：轻量、确定、可复现

MedGemma X-Ray对环境敏感：PyTorch版本、CUDA驱动、ModelScope缓存路径、Gradio UI配置……任何一项不一致，都可能导致推理失败或显存溢出。所以第一步，必须构建一个自包含、免外部依赖的镜像。

3.1 Dockerfile编写要点（不追求最小，而追求稳定）

# 使用官方CUDA基础镜像，版本与宿主机nvidia-driver严格对齐 FROM nvidia/cuda:12.1.1-runtime-ubuntu22.04 # 设置中文环境（避免日志乱码、字体缺失） ENV LANG=C.UTF-8 LC_ALL=C.UTF-8 ENV DEBIAN_FRONTEND=noninteractive # 安装系统依赖（中文字体、curl、vim仅用于调试，可删） RUN apt-get update && apt-get install -y \ fonts-wqy-zenhei \ curl \ vim \ && rm -rf /var/lib/apt/lists/* # 创建非root用户（安全基线要求） RUN groupadd -g 1001 -f appuser && useradd -r -u 1001 -g appuser appuser USER appuser # 复制应用代码（假设你已把gradio_app.py和requirements.txt放在build上下文） COPY --chown=appuser:appuser requirements.txt /tmp/ RUN pip install --no-cache-dir -r /tmp/requirements.txt # 复制主程序与静态资源 COPY --chown=appuser:appuser gradio_app.py /app/ WORKDIR /app # 设置ModelScope缓存路径（指向容器内可写目录） ENV MODELSCOPE_CACHE=/app/modelscope_cache ENV CUDA_VISIBLE_DEVICES=0 # 暴露Gradio默认端口 EXPOSE 7860 # 直接运行，不走shell包装器 CMD ["python", "gradio_app.py", "--server-port", "7860", "--server-name", "0.0.0.0"]

3.2 requirements.txt精简建议

确保只保留真正必需的包，避免隐式依赖冲突：

gradio==4.41.0 torch==2.3.0+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 transformers==4.41.2 modelscope==1.15.1 Pillow==10.3.0 numpy==1.26.4

构建验证命令：
docker build -t medgemma-xray:v1.0 .
docker run -p 7860:7860 --gpus all medgemma-xray:v1.0
浏览器打开http://localhost:7860，上传X光片测试是否正常响应。

4. Kubernetes编排清单：从单Pod到高可用服务

现在，我们把镜像变成Kubernetes里的“活服务”。以下YAML不是模板拼凑，而是按真实运维场景组织：先跑通单实例，再加GPU调度，最后补上可观测性。

4.1 基础Deployment（medgemma-deploy.yaml）

apiVersion: apps/v1 kind: Deployment metadata: name: medgemma-xray labels: app: medgemma-xray spec: replicas: 1 selector: matchLabels: app: medgemma-xray template: metadata: labels: app: medgemma-xray spec: # 强制使用GPU节点（需提前打label：kubectl label node gpu-node nvidia.com/gpu=1） nodeSelector: nvidia.com/gpu: "1" # 请求1块GPU，限制显存用量（防OOM） resources: limits: nvidia.com/gpu: 1 memory: "12Gi" cpu: "4" requests: nvidia.com/gpu: 1 memory: "8Gi" cpu: "2" # 使用非root用户运行 securityContext: runAsUser: 1001 runAsGroup: 1001 fsGroup: 1001 containers: - name: app image: medgemma-xray:v1.0 ports: - containerPort: 7860 name: http env: - name: MODELSCOPE_CACHE value: "/app/modelscope_cache" # 挂载空目录供模型下载缓存 volumeMounts: - name: model-cache mountPath: /app/modelscope_cache # 健康检查：Gradio默认/healthz端点返回200即认为就绪 livenessProbe: httpGet: path: /healthz port: 7860 initialDelaySeconds: 120 periodSeconds: 30 readinessProbe: httpGet: path: /healthz port: 7860 initialDelaySeconds: 60 periodSeconds: 10 volumes: - name: model-cache emptyDir: {}

4.2 Service暴露（medgemma-service.yaml）

apiVersion: v1 kind: Service metadata: name: medgemma-xray-svc spec: selector: app: medgemma-xray ports: - port: 80 targetPort: 7860 protocol: TCP type: ClusterIP # 内部访问；如需外网，改用NodePort或Ingress

4.3 应用部署与验证

# 1. 应用部署 kubectl apply -f medgemma-deploy.yaml kubectl apply -f medgemma-service.yaml # 2. 查看Pod状态（等待STATUS为Running） kubectl get pods -l app=medgemma-xray # 3. 转发端口到本地（快速验证） kubectl port-forward svc/medgemma-xray-svc 7860:80 # 4. 浏览器打开 http://localhost:7860 —— 此时你访问的是K8s Pod，不是本地进程

5. 生产就绪增强：日志、监控与弹性伸缩

单Pod能跑通只是起点。医疗AI服务需要更稳的底座。

5.1 日志统一采集（无需改代码）

Kubernetes默认将容器stdout/stderr转为结构化日志。你只需确保gradio_app.py不重定向输出到文件：

# 正确：直接print，由K8s捕获 print("Starting MedGemma X-Ray on GPU 0...") # ❌ 错误：写本地文件（日志会丢失） # with open("/root/build/logs/app.log", "a") as f: # f.write("Started...\n")

查看日志命令：

# 实时跟踪 kubectl logs -l app=medgemma-xray -f # 查看最近100行 kubectl logs -l app=medgemma-xray --tail=100

5.2 Prometheus指标暴露（可选但强烈推荐）

在gradio_app.py中加入简单指标埋点（用prometheus-client）：

from prometheus_client import Counter, Gauge, start_http_server # 定义指标 inference_count = Counter('medgemma_inference_total', 'Total number of inferences') inference_latency = Gauge('medgemma_inference_latency_seconds', 'Inference latency in seconds') # 在预测函数开头/结尾记录 def predict(image, question): start_time = time.time() inference_count.inc() # ... 模型推理逻辑 ... inference_latency.set(time.time() - start_time) return result

然后在Deployment中开放指标端口：

ports: - containerPort: 7860 name: http - containerPort: 8000 # 指标端口 name: metrics

再配一个ServiceMonitor（Prometheus Operator场景），即可接入Grafana看板，实时监控QPS、延迟、错误率。

5.3 水平扩缩容（应对教学高峰）

MedGemma X-Ray是CPU+GPU混合负载，不能盲目扩Pod。建议设置基于GPU利用率的HPA：

kubectl autoscale deployment medgemma-xray \ --cpu-percent=70 \ --min=1 \ --max=3 \ --name=medgemma-hpa

提示：实际扩容效果取决于GPU共享策略。若集群使用NVIDIA MIG或vGPU，需额外配置device plugin；普通独占GPU场景，1 Pod = 1 GPU，扩到3副本即占用3块卡。

6. 故障排查实战：K8s环境下的常见问题定位

迁移到K8s后，问题表现形式变了，排查思路也要更新。以下是高频问题对照表：

问题现象	传统排查方式	K8s推荐排查链路
应用打不开	`netstat -tlnp \| grep 7860`	`kubectl get pods`,`kubectl describe pod <name>`查Events
日志空白	`cat /root/build/logs/*.log`	`kubectl logs <pod-name> --previous`（查崩溃前日志）
GPU不可用	`nvidia-smi`,`echo $CUDA_VISIBLE_DEVICES`	`kubectl describe node <gpu-node>`, 查Allocatable GPU数量
模型加载超时	`tail -f /root/build/logs/*.log`	`kubectl logs <pod> \| grep -i "download\|cache"`, 检查modelscope_cache卷权限
请求503	`curl -v http://localhost:7860`	`kubectl get endpoints medgemma-xray-svc`, 确认Endpoint是否关联到Pod

一个典型排障流程示例：
用户反馈“上传X光片后一直转圈”。
→kubectl get pods发现Pod处于CrashLoopBackOff
→kubectl describe pod <name>看到事件：Back-off restarting failed container
→kubectl logs <name> --previous输出：OSError: [Errno 12] Cannot allocate memory
→ 结论：内存不足 → 检查Deployment中resources.limits.memory，从8Gi调至12Gi →kubectl apply重载

7. 总结：让医疗AI真正“可交付”的关键一步

把MedGemma X-Ray放进Kubernetes，表面看是换了个运行环境，实质是完成了从“能跑”到“可交付”的跃迁：

对开发者：不再需要记住/root/build/start_gradio.sh在哪，kubectl rollout restart deploy/medgemma-xray一条命令完成热更新；
对运维者：不用半夜爬起来杀僵死进程，K8s自动拉起、自动健康检查、自动日志归集；
对使用者：医学生批量访问时不再排队，系统自动扩容；教学演示时一键导出YAML，下次开课直接kubectl apply复用；
对合规要求：所有操作留痕（kubectl audit）、资源隔离（GPU独占）、非root运行，满足医疗IT基础安全规范。

这并不是终点。下一步你可以：
用Ingress + TLS暴露公网，供远程教学使用；
接入对象存储（OSS/S3）替代本地上传，支持百张X光片批量分析；
将结构化报告自动写入FHIR服务器，对接医院HIS系统；
基于Prometheus指标训练异常检测模型，预测GPU显存泄漏风险……

技术的价值，从来不在“能不能做”，而在于“能不能稳、能不能快、能不能持续交付”。当你把MedGemma X-Ray真正跑在Kubernetes上，你就已经跨过了那条线。