多卡训练,NVLink是生命线。
NVLink带宽是PCIe的14倍,一旦出问题,训练效率断崖式下降。
诊断命令
# 查看拓扑 nvidia-smi topo -m # 查看NVLink状态 nvidia-smi nvlink --status -i 0 # 查看NVLink错误 nvidia-smi nvlink -s -i 0
拓扑显示含义
显示 | 类型 | 带宽 | 说明 |
NV18 | NVLink 4.0 x18 | 900 GB/s | HGX H100正常 |
NV12 | NVLink 3.0 x12 | 600 GB/s | HGX A100正常 |
PHB | PCIe主机桥 | 32 GB/s | 最差连接 |
常见故障
1. NVLink降级
• 症状:带宽只有一半(300-400GB/s)
• 原因:某个NVLink通道损坏
• 解决:更换GPU或NVSwitch
2. CRC错误
• 症状:nvidia-smi显示CRC错误
• 原因:信号完整性问题
• 解决:检查连接器、更新固件
3. 拓扑异常
• 症状:GPU间无法通信
• 原因:驱动崩溃、固件问题
• 解决:重启、刷固件
带宽测试
使用NCCL测试实际带宽:
git clone https://github.com/NVIDIA/nccl-tests.git cd nccl-tests make MPI=1 CUDA_HOME=/usr/local/cuda mpirun -np 8 ./build/all_reduce_perf -b 8 -e 128M -f 2 -g 1
正常HGX H100应该达到600-700 GB/s
排查要点
检查BMC日志:看掉卡时间点
检查固件版本:NVSwitch和GPU固件匹配
检查物理连接:NVLink桥接器是否到位
检查BIOS设置:Above 4G Decoding
维核智算 — NVLink专业诊断 · HGX集群健康巡检