Prometheus监控GPU节点资源使用情况-平芜编程栈

Prometheus监控GPU节点资源使用情况

在大模型训练日益成为AI研发核心的今天，一个看似不起眼却极其关键的问题正在困扰着许多工程团队：明明买了昂贵的A100/H100集群，为什么实际利用率却常常不到30%？更让人头疼的是，当训练任务突然中断时，我们往往只能靠事后翻日志来“破案”——是显存溢出？温度过高？还是系统负载不均？

这类问题的本质，其实是资源可见性的缺失。而解决之道，就藏在一套高效、实时的监控体系之中。其中，Prometheus 凭借其强大的生态和对云原生环境的深度适配，已经成为构建AI基础设施可观测性的首选方案。

要真正发挥它的价值，不能只是简单地把指标采集上来，而是需要围绕 GPU 节点的关键维度进行精细化设计：从硬件层的GPU利用率、显存占用，到主机层面的CPU、内存、磁盘IO，再到上层训练任务的状态联动分析。只有这样，才能实现从“看得到”到“看得懂”，最终走向“可优化”的闭环。

核心架构与技术选型

实现这一目标的核心思路是：分层采集 + 统一建模 + 智能告警。

底层依赖两个关键 Exporter 来完成数据暴露：

Node Exporter：负责抓取 Linux 主机的基础资源指标；
DCGM Exporter：专为 NVIDIA 数据中心级 GPU 设计，提供细粒度的硬件性能数据。

它们就像分布在每台物理机上的“传感器”，持续将系统的运行状态以标准格式输出到 HTTP 接口（通常是/metrics），等待 Prometheus 主动拉取。

而 Prometheus 本身则扮演“大脑”的角色——它通过服务发现机制自动识别这些目标，定时发起拉取请求，将原始指标存储为时间序列数据，并支持通过 PromQL 进行灵活查询。整个过程完全解耦，无需代理推送，非常适合部署在动态变化的 Kubernetes 集群中。

Grafana 则作为前端展示层，将这些冷冰冰的数字转化为直观的趋势图、热力图和仪表盘；Alertmanager 负责接收异常信号并触发通知，形成完整的“感知—分析—响应”链条。

graph TD A[GPU Node] --> B[DCGM Exporter] A --> C[Node Exporter] B --> D[(/metrics :9400)] C --> E[(/metrics :9100)] D --> F[Prometheus Server] E --> F F --> G[Grafana Dashboard] F --> H[Alertmanager] H --> I[Email/Slack/Webhook]

这套架构的最大优势在于轻量、稳定且高度可扩展。每个组件职责单一，升级或替换不会影响整体运行。更重要的是，所有指标都带有丰富的标签（labels），比如instance、gpu、job等，这使得我们可以轻松按节点、按卡号、按集群做多维聚合分析。

如何精准获取GPU指标？

传统做法是写个脚本定期调用nvidia-smi，然后解析输出结果。这种方法虽然简单，但存在明显缺陷：采样频率低、文本解析易出错、无法获取深层性能计数器。

相比之下，NVIDIA 官方推荐的DCGM（Data Center GPU Manager）Exporter是更专业的选择。它基于 DCGM SDK 直接与 GPU 驱动通信，能够以毫秒级精度采集超过200个性能指标，包括：

dcgm_gpu_utilization：GPU 核心利用率（%）
dcgm_fb_used/dcgm_fb_total：已用/总显存（MB）
dcgm_power_usage：当前功耗（W）
dcgm_temperature_gpu：GPU 温度（℃）
dcgm_sm_clock：SM 核心频率（MHz）

更重要的是，这些数据已经是结构化的浮点数值，直接暴露为 Prometheus 兼容格式，无需任何后处理即可用于查询和告警。

启动方式也非常简洁，通常采用容器化部署：

docker run -d \ --name=dcgm-exporter \ --gpus=all \ -p 9400:9400 \ nvcr.io/nvidia/k8s/dcgm-exporter:3.3.7-3.2.2-ubuntu20.04

这条命令会启动一个监听:9400的服务，自动探测本机所有支持的 NVIDIA GPU 并开始采集。镜像来自 NVIDIA NGC 仓库，版本经过严格测试，确保与主流驱动兼容。

⚠️ 实践建议：务必确认你的主机已安装对应版本的 NVIDIA 驱动和 CUDA Toolkit，否则 DCGM 将无法正常工作。可通过nvidia-smi和dcgmi discovery -i 0验证环境是否就绪。

主机资源监控不可忽视

很多人只关注 GPU，却忽略了这样一个事实：GPU 再强，也得靠 CPU、内存和 PCIe 总线来喂数据。一旦主机资源瓶颈出现，GPU 往往会长时间处于空闲等待状态，导致整体吞吐下降。

举个真实案例：某团队发现他们的训练作业 GPU 利用率始终徘徊在40%左右。深入排查后才发现，原来是数据预处理进程占满了 CPU，I/O 延迟飙升，导致 GPU 经常“饿死”。这个问题如果不结合主机指标来看，几乎不可能被发现。

因此，在每个 GPU 节点上同时部署Node Exporter至关重要。它可以采集以下关键信息：

node_cpu_seconds_total：CPU 使用率（需用 rate 计算）
node_memory_MemAvailable_bytes：可用内存
node_disk_io_time_seconds_total：磁盘 I/O 时间占比
node_load1：系统一分钟平均负载

部署也很简单：

wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz tar xvfz node_exporter-1.7.0.linux-amd64.tar.gz cd node_exporter-1.7.0.linux-amd64 ./node_exporter --web.listen-address=":9100" &

建议将其配置为 systemd 服务，保证开机自启和崩溃重启。

Prometheus 配置的艺术

光有 Exporter 还不够，如何让 Prometheus 正确识别并高效采集这些目标，才是真正的“临门一脚”。

下面是一个典型的prometheus.yml配置片段：

scrape_configs: - job_name: 'gpu-nodes' static_configs: - targets: ['192.168.1.10:9100', '192.168.1.11:9100'] relabel_configs: - source_labels: [__address__] target_label: node_ip - job_name: 'dcgm-exporter' static_configs: - targets: ['192.168.1.10:9400', '192.168.1.11:9400'] metric_relabel_configs: - source_labels: [gpu_uuid] target_label: gpu

这里有两个关键细节值得强调：

relabel_configs：用于重写标签。例如将__address__转换为更具语义的node_ip，便于后续查询过滤。
metric_relabel_configs：作用于指标级别，可用于提取gpu_uuid作为独立标签，方便区分不同显卡。

当然，在 Kubernetes 环境下更推荐使用服务发现机制（如kubernetes_sd_configs），实现自动注册和注销，避免手动维护 IP 列表。

另外，关于采集间隔（scrape interval）的选择也需要权衡。默认 15s 是一个不错的起点——既能捕捉到短时峰值（如显存突增），又不至于造成太大存储压力。如果业务对延迟敏感，也可以调整为 10s 或 5s，但要注意 TSDB 的写入负载。

可视化与告警：从被动响应到主动预防

采集数据只是第一步，真正的价值体现在如何使用这些数据。

可视化：一眼看清全局

在 Grafana 中创建仪表板时，建议至少包含以下几个核心视图：

视图名称	关键指标	分析目的
GPU 利用率趋势图	`dcgm_gpu_utilization`	判断是否存在长期闲置或饱和
显存使用率	`dcgm_fb_used / dcgm_fb_total`	发现潜在 OOM 风险
温度与功耗监控	`dcgm_temperature_gpu`,`dcgm_power_usage`	评估硬件健康状况
主机负载对比	`node_load1`,`node_cpu_seconds_total`	检查 CPU 是否成为瓶颈

你可以设置面板按instance或gpu分组显示，快速定位异常节点。

告警规则：让系统自己“喊人”

与其等故障发生后再处理，不如提前设好防线。以下是几个实用的告警表达式：

- alert: HighGPUMemoryUsage expr: dcgm_fb_used / dcgm_fb_total > 0.9 for: 2m labels: severity: warning annotations: summary: "High GPU memory usage on {{ $labels.instance }}" description: "GPU memory usage is above 90% for more than 2 minutes." - alert: LowGPUUtilization expr: avg by(instance) (rate(dcgm_gpu_utilization[5m])) < 10 for: 10m labels: severity: info annotations: summary: "Low GPU utilization detected" description: "Average GPU utilization has been below 10% for 10 minutes."

第一条用于检测显存溢出风险，第二条则帮助识别资源浪费情况。配合 Alertmanager，可以将警告发送至邮件、Slack 或企业微信，确保第一时间触达责任人。

工程实践中的常见陷阱与应对策略

即便技术路径清晰，在落地过程中仍有不少“坑”需要注意：

1. 版本兼容性问题

DCGM Exporter 对 NVIDIA 驱动版本有明确要求。例如 v3.3.x 通常需要 Driver >= 515。若版本不匹配，可能导致采集失败或返回零值。建议建立版本矩阵文档，并在 CI 流程中加入校验步骤。

2. 标签爆炸（Label Explosion）

如果为每个指标添加过多高基数标签（如 request_id），会导致时间序列数量激增，进而拖慢查询性能甚至压垮 Prometheus。解决方案是：
- 仅保留必要的维度（如 instance, gpu, cluster）；
- 对高基数字段进行聚合或采样；
- 必要时引入 Thanos 或 Cortex 实现远程存储与分片。