Ubuntu 20.04下，用AMD RX 6700XT跑PyTorch，我踩过的那些坑和最终解决方案-平芜编程栈

Ubuntu 20.04下AMD RX 6700XT深度学习环境配置实战指南

去年夏天，当我第一次尝试在Ubuntu 20.04系统上用AMD RX 6700XT搭建PyTorch开发环境时，原本以为两小时就能搞定的事情，最终花了我整整三天时间。这段经历让我深刻体会到，在Linux系统上配置AMD显卡的AI开发环境，远不像NVIDIA生态那样"开箱即用"。本文将分享我从驱动安装、ROCM配置到PyTorch验证全过程中遇到的那些"坑"，以及经过反复验证的解决方案。不同于简单的步骤罗列，我会详细解释每个问题的成因和解决思路，帮助你在遇到类似问题时能够举一反三。

1. 驱动安装：从依赖地狱到稳定运行

AMD显卡在Linux下的驱动安装向来是个技术活，特别是当你想用它跑深度学习时。我最初天真的以为，像Windows那样下载个驱动安装包双击就能搞定，结果发现完全不是这么回事。

1.1 驱动版本选择的陷阱

AMD官网提供了多个版本的驱动，但并非所有版本都支持ROCm（AMD的深度学习计算平台）。我最初下载了最新的游戏驱动，结果发现根本不兼容ROCm 5.4.2。正确的做法是：

访问AMD ROCm官方支持页面，确认你的显卡型号和Linux发行版是否在支持列表中
下载专为ROCm优化的驱动包，通常文件名包含"amdgpu-install"
避免使用过于陈旧的驱动版本，否则可能无法充分发挥显卡性能

提示：RX 6700XT对应的ROCm推荐驱动版本通常在5.4.x系列，具体可参考AMD官方文档

1.2 依赖问题的终极解决方案

运行sudo apt install amdgpu-install_*.deb时，我遇到了令人崩溃的依赖错误。经过多次尝试，发现以下方法最有效：

# 先修复可能存在的依赖问题 sudo apt --fix-broken install sudo apt update sudo apt upgrade # 安装必要的基础依赖 sudo apt install -y libdrm-amdgpu1 libdrm-common libdrm2 # 最后安装驱动包 sudo apt install ./amdgpu-install_5.4.50403-1_all.deb

如果仍然报错，可以尝试添加AMD官方仓库后重新安装：

sudo add-apt-repository ppa:amdgpu/amdgpu sudo apt update

2. ROCm安装：内核模块与用户权限的那些事

ROCm是AMD的异构计算平台，相当于NVIDIA的CUDA，但它的安装过程要复杂得多，特别是在处理内核模块和用户权限方面。

2.1 DKMS与否的哲学问题

关于是否使用--no-dkms参数，网上众说纷纭。我的实践经验是：

使用DKMS：适合长期稳定使用，内核升级后会自动重新编译模块
不使用DKMS：适合频繁切换ROCm版本或遇到内核兼容性问题时

对于大多数Ubuntu 20.04用户，我推荐以下安装命令：

sudo amdgpu-install --usecase=rocm,hip,mllib --no-dkms

这样做的原因是：

Ubuntu 20.04默认内核(5.4)与ROCm的DKMS模块有时会出现兼容性问题
避免未来升级内核时可能出现的模块编译失败
更干净的卸载体验，不会在内核中残留模块

2.2 用户组与权限配置

安装完成后，必须将当前用户添加到正确的组中，否则会遭遇各种权限问题：

sudo usermod -a -G video,render,kmem,input $USER

然后需要注销并重新登录使组变更生效。验证是否成功：

groups | grep -E 'video|render'

如果看不到video和render组，说明配置没有生效，需要检查用户组设置。

3. PyTorch安装与环境变量迷宫

PyTorch官方现在提供了对ROCm的官方支持，但安装过程仍然有不少需要注意的细节。

3.1 PyTorch版本与ROCm的匹配

不是所有PyTorch版本都能完美支持所有ROCm版本。经过测试，以下组合在RX 6700XT上表现最稳定：

PyTorch版本	ROCm版本	备注
1.12.0	5.4.2	最稳定组合
1.13.0	5.5.1	需要额外环境变量
2.0.0+	5.6.0	实验性支持

推荐使用pip安装指定版本的PyTorch：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2

3.2 环境变量配置的艺术

关于环境变量配置，特别是HSA_OVERRIDE_GFX_VERSION和LD_LIBRARY_PATH，存在很多争议。我的建议是：

先不设置任何特殊环境变量，直接测试PyTorch是否能正常运行
如果遇到问题，再逐步添加必要的变量

对于RX 6700XT，通常需要以下配置（添加到~/.bashrc）：

export HSA_OVERRIDE_GFX_VERSION=10.3.0 export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH export ROCM_PATH=/opt/rocm

然后执行source ~/.bashrc使变更生效。

注意：HSA_OVERRIDE_GFX_VERSION的值取决于你的显卡架构，RX 6700XT对应的是10.3.0

3.3 库文件符号链接问题

有时即使环境变量配置正确，PyTorch仍然会报找不到库文件的错误。这是因为某些ROCm库文件缺少必要的符号链接。解决方法：

cd /opt/rocm/lib sudo ln -s librocblas.so.0 librocblas.so sudo ln -s libMIOpen.so.1 libMIOpen.so sudo ln -s librocrand.so.1 librocrand.so

4. 常见错误分析与解决方案

在实际使用过程中，你可能会遇到各种奇怪的错误。以下是几个最常见的问题及其解决方法。

4.1 SIGSEGV段错误 (Exit code 139)

这个错误通常表现为：

Process finished with exit code 139 (interrupted by signal 11: SIGSEGV)

可能的原因和解决方案：

环境变量未正确设置：确保HSA_OVERRIDE_GFX_VERSION和LD_LIBRARY_PATH已配置并生效
权限问题：确认用户已加入video和render组，并重新登录
驱动版本不匹配：尝试降级或升级ROCm驱动版本

4.2 "HIP_ERROR_NoDevice"错误

如果遇到类似以下错误：

RuntimeError: HIP_ERROR_NoDevice

尝试以下解决方案：

# 检查ROCm是否检测到你的显卡 /opt/rocm/bin/rocminfo # 如果看不到你的显卡信息，可能需要： sudo apt install rocm-dev sudo reboot

4.3 性能调优技巧

为了让RX 6700XT发挥最佳性能，可以尝试以下优化：

在PyTorch代码中添加以下设置：

torch.backends.cudnn.benchmark = True torch.backends.cudnn.enabled = True

调整ROCm的线程调度策略：

export HIP_THREAD_SCHED_POLICY=2 export HIP_THREAD_SCHED_PRIORITY=15

对于大模型，增加ROCm的内存分配限制：

export HIP_VISIBLE_DEVICES=0 export HIP_DEVICE_MAX_HW_QUEUES=4

5. 系统监控与维护

配置完成后，如何监控显卡状态和维护系统稳定性同样重要。

5.1 监控工具推荐

radeontop：实时监控GPU使用率
```
sudo apt install radeontop radeontop
```
rocminfo：查看ROCm设备信息
clinfo：查看OpenCL设备信息

5.2 定期维护建议

为了保持系统稳定，建议：

每月检查一次ROCm和驱动更新
升级内核前备份重要数据
避免频繁切换ROCm版本

定期清理PyTorch缓存：

rm -rf ~/.cache/pip rm -rf ~/.cache/torch

经过这番折腾，我的RX 6700XT现在可以稳定运行各种PyTorch模型了。虽然过程曲折，但看到最终torch.cuda.is_available()返回True的那一刻，所有的努力都值得了。如果你在配置过程中遇到本文未覆盖的问题，建议查阅ROCm官方GitHub仓库的Issues板块，那里有大量实际案例和解决方案。