从零到AI：Ubuntu20.04深度学习环境搭建的避坑指南-平芜编程栈

从零到AI：Ubuntu20.04深度学习环境搭建的避坑指南

第一次在Ubuntu上配置深度学习环境时，我花了整整三天时间反复重装系统。每次看到屏幕上出现"CUDA版本不兼容"或"驱动加载失败"的报错，都让人抓狂。直到后来才发现，原来只需要注意几个关键步骤的顺序和版本匹配，整个过程可以缩短到两小时内完成。

1. 驱动安装：从源头避免冲突

NVIDIA驱动是深度学习环境的地基，但也是最容易出问题的环节。很多教程会直接让你运行sudo ubuntu-drivers autoinstall，但根据我的经验，这个命令在Ubuntu20.04上可能导致依赖地狱。

1.1 彻底禁用nouveau驱动

在安装官方驱动前，必须完全禁用Ubuntu默认的nouveau驱动。我遇到过多次因为禁用不彻底导致黑屏的情况：

# 检查是否加载了nouveau驱动 lsmod | grep nouveau # 如果输出不为空，执行以下操作 sudo bash -c "echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf" sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf" sudo update-initramfs -u

重要提示：执行完上述命令后必须重启系统，否则修改不会生效。重启后再次检查nouveau是否被禁用：

lsmod | grep nouveau # 应该无任何输出

1.2 选择正确的驱动安装方式

根据显卡型号和CUDA版本需求，有两种推荐安装方式：

安装方式	适用场景	优点	缺点
在线安装	网络环境良好，CUDA版本灵活	自动解决依赖关系	可能遇到版本冲突
离线安装	特定CUDA版本需求	版本精确控制	需要手动处理依赖

在线安装推荐流程：

# 查看推荐驱动版本 ubuntu-drivers devices # 安装推荐版本（假设推荐nvidia-driver-525） sudo apt install nvidia-driver-525

如果遇到依赖问题，可以尝试以下修复步骤：

# 常见依赖修复命令 sudo apt --fix-broken install sudo apt install dkms libglvnd-dev

离线安装关键步骤：

从NVIDIA官网下载对应驱动.run文件

安装编译依赖：

sudo apt install gcc make linux-headers-$(uname -r)

运行安装程序：

chmod +x NVIDIA-Linux-x86_64-525.60.11.run sudo ./NVIDIA-Linux-x86_64-525.60.11.run

安装完成后，验证驱动是否正常工作：

nvidia-smi

如果看到类似如下的输出，说明驱动安装成功：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 525.60.11 Driver Version: 525.60.11 CUDA Version: 12.0 | |-------------------------------+----------------------+----------------------+

2. CUDA安装：版本选择的艺术

CUDA版本选择不当是导致环境失败的最常见原因。根据我的经验，应该遵循"向下兼容"原则：CUDA版本应比驱动支持的最高版本低1-2个小版本。

2.1 确定兼容版本

首先检查驱动支持的CUDA版本：

nvidia-smi | grep "CUDA Version"

假设输出显示"CUDA Version: 12.0"，那么推荐安装CUDA 11.7或11.8。

2.2 安装CUDA Toolkit

从NVIDIA CUDA存档下载对应版本。以CUDA 11.7为例：

wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run sudo sh cuda_11.7.1_515.65.01_linux.run

安装界面关键选项：

取消勾选Driver（已安装独立驱动）
确保勾选CUDA Toolkit和samples
安装路径保持默认/usr/local/cuda-11.7

2.3 环境变量配置

这是很多人容易出错的地方。正确的配置方式：

# 编辑~/.bashrc echo 'export PATH=/usr/local/cuda-11.7/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

验证安装：

nvcc --version

如果看到类似nvcc: NVIDIA (R) Cuda compiler version 11.7的输出，说明安装成功。

2.4 测试CUDA功能

运行官方示例测试：

# 复制示例代码 cuda-install-samples-11.7.sh ~ cd ~/NVIDIA_CUDA-11.7_Samples/1_Utilities/deviceQuery make ./deviceQuery

如果最后显示Result = PASS，说明CUDA工作正常。

3. cuDNN安装：深度学习加速的关键

cuDNN版本必须与CUDA严格匹配。我在三个不同项目中发现，即使小版本号不匹配也可能导致性能下降或运行时错误。

3.1 下载正确版本

访问NVIDIA cuDNN下载页，需要注册账号。以CUDA 11.7为例，应选择：

cuDNN v8.5.0 (November 7th, 2022), for CUDA 11.x

下载三个关键文件：

cuDNN Runtime Library
cuDNN Developer Library
cuDNN Code Samples

3.2 安装步骤

# 解压并复制文件 tar -xzvf cudnn-11.7-linux-x64-v8.5.0.96.tgz sudo cp cuda/include/cudnn*.h /usr/local/cuda-11.7/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.7/lib64 sudo chmod a+r /usr/local/cuda-11.7/include/cudnn*.h /usr/local/cuda-11.7/lib64/libcudnn*

3.3 验证安装

# 检查版本 cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

应该看到类似输出：

#define CUDNN_MAJOR 8 #define CUDNN_MINOR 5 #define CUDNN_PATCHLEVEL 0

4. Anaconda环境配置：隔离与复现

Python环境管理是深度学习项目的另一大痛点。我推荐使用Miniconda而非完整Anaconda，因为它更轻量且同样强大。

4.1 安装Miniconda

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh

安装完成后，初始化conda：

source ~/.bashrc

4.2 创建专用环境

为每个项目创建独立环境是好习惯：

conda create -n dl_env python=3.9 conda activate dl_env

4.3 配置国内镜像源

为避免下载超时，建议配置清华源：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda config --set show_channel_urls yes

4.4 安装PyTorch或TensorFlow

以PyTorch为例，根据CUDA版本选择安装命令：

# CUDA 11.7 conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

验证GPU是否可用：

import torch print(torch.cuda.is_available()) # 应该输出True print(torch.cuda.get_device_name(0)) # 显示显卡型号

5. 常见问题解决方案

在数十次环境配置中，我总结了这些典型问题的解决方法：

5.1 驱动加载失败

症状：NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

解决方法：

sudo apt purge nvidia* sudo apt install --reinstall linux-headers-$(uname -r) # 然后重新安装驱动

5.2 CUDA版本冲突

症状：CUDA driver version is insufficient for CUDA runtime version

解决方法：

检查nvidia-smi显示的CUDA版本
安装匹配的CUDA Toolkit版本
确保LD_LIBRARY_PATH指向正确的CUDA目录

5.3 cuDNN测试失败

症状：CUDNN_STATUS_NOT_INITIALIZED

解决方法：

确认cuDNN版本与CUDA完全匹配

检查文件是否复制到正确位置：

ls /usr/local/cuda/include/cudnn.h ls /usr/local/cuda/lib64/libcudnn*

确保环境变量包含CUDA路径

5.4 Conda环境混乱

症状：多个项目依赖冲突

解决方法：

为每个项目创建独立环境
导出环境配置：
```
conda env export > environment.yml
```
复现环境：
```
conda env create -f environment.yml
```

6. 高效工作流建议

经过多次实践，我总结出这套高效配置流程：

版本规划表：在开始前确定组件版本组合
组件版本备注
驱动 525.60.11 支持CUDA 12.0
CUDA 11.7.1 比驱动低一个小版本
cuDNN 8.5.0 匹配CUDA 11.x
安装顺序：
- 禁用nouveau驱动
- 安装NVIDIA驱动
- 安装CUDA Toolkit
- 安装cuDNN
- 配置conda环境

组件	版本	备注
驱动	525.60.11	支持CUDA 12.0
CUDA	11.7.1	比驱动低一个小版本
cuDNN	8.5.0	匹配CUDA 11.x

验证检查点：

# 驱动验证 nvidia-smi # CUDA验证 nvcc --version ./deviceQuery # cuDNN验证 cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2 # PyTorch验证 python -c "import torch; print(torch.cuda.is_available())"