news 2026/5/14 13:38:27

NVLink故障诊断排查:多卡集群训练必看

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NVLink故障诊断排查:多卡集群训练必看

多卡训练,NVLink是生命线。

NVLink带宽是PCIe的14倍,一旦出问题,训练效率断崖式下降。

诊断命令

# 查看拓扑 nvidia-smi topo -m # 查看NVLink状态 nvidia-smi nvlink --status -i 0 # 查看NVLink错误 nvidia-smi nvlink -s -i 0

拓扑显示含义

显示

类型

带宽

说明

NV18

NVLink 4.0 x18

900 GB/s

HGX H100正常

NV12

NVLink 3.0 x12

600 GB/s

HGX A100正常

PHB

PCIe主机桥

32 GB/s

最差连接

常见故障

1. NVLink降级

• 症状:带宽只有一半(300-400GB/s)

• 原因:某个NVLink通道损坏

• 解决:更换GPU或NVSwitch

2. CRC错误

• 症状:nvidia-smi显示CRC错误

• 原因:信号完整性问题

• 解决:检查连接器、更新固件

3. 拓扑异常

• 症状:GPU间无法通信

• 原因:驱动崩溃、固件问题

• 解决:重启、刷固件

带宽测试

使用NCCL测试实际带宽:

git clone https://github.com/NVIDIA/nccl-tests.git cd nccl-tests make MPI=1 CUDA_HOME=/usr/local/cuda mpirun -np 8 ./build/all_reduce_perf -b 8 -e 128M -f 2 -g 1

正常HGX H100应该达到600-700 GB/s

排查要点

检查BMC日志:看掉卡时间点

检查固件版本:NVSwitch和GPU固件匹配

检查物理连接:NVLink桥接器是否到位

检查BIOS设置:Above 4G Decoding

维核智算 — NVLink专业诊断 · HGX集群健康巡检

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 13:38:08

3分钟快速上手:AI图像分层工具layerdivider完全使用指南

3分钟快速上手:AI图像分层工具layerdivider完全使用指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为手动分离复杂图像图层而烦恼吗…

作者头像 李华
网站建设 2026/5/14 13:33:24

Midjourney Turbo模式全链路解析(Turbo不是“快”而是“准”):从提示词压缩、V6.1模型调度到GPU资源抢占机制

更多请点击: https://intelliparadigm.com 第一章:Turbo模式的本质重定义:从“加速幻觉”到“精度优先”范式迁移 传统 Turbo 模式常被误读为单纯提升吞吐量的“性能开关”,实则掩盖了其在现代异构计算栈中日益凸显的语义漂移——…

作者头像 李华
网站建设 2026/5/14 13:33:23

漫画翻译革命:BallonsTranslator如何让外文漫画阅读变得轻松简单?

漫画翻译革命:BallonsTranslator如何让外文漫画阅读变得轻松简单? 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearn…

作者头像 李华
网站建设 2026/5/14 13:32:31

NXP S32K144实战指南:S32DS高效调试与界面布局优化

1. S32DS界面布局优化实战 第一次打开S32DS时,满屏的窗口和工具栏确实容易让人眼花缭乱。经过多个项目的实战,我发现合理的界面布局能让开发效率提升至少30%。先说说我的标准配置方案: 左侧固定放置Project Explorer和Outline窗口。Project E…

作者头像 李华
网站建设 2026/5/14 13:31:15

多核处理器通信:MCAPI架构与嵌入式系统实践

1. 多核处理器架构的演进与挑战十年前,当我第一次在嵌入式项目中尝试使用双核处理器时,面临的第一个问题就是如何让两个核心高效地"对话"。当时市面上缺乏统一的标准,我们不得不自己开发基于共享内存的通信协议,结果导致…

作者头像 李华