RTX4060Ti到手后，我如何在Windows上一步步配好PyTorch+UNet环境（附完整依赖清单）-平芜编程栈

RTX4060Ti到手后，我如何在Windows上一步步配好PyTorch+UNet环境（附完整依赖清单）

刚拆开RTX4060Ti的包装时，那种兴奋感就像拿到新玩具的孩子。但很快我就意识到，要让这块显卡真正发挥价值，得先搞定深度学习环境的配置。作为一个从零开始摸索的开发者，我记录下整个过程中遇到的坑和解决方案，希望能帮到同样刚入门的你。

1. 开箱与基础准备

拆开显卡包装后，第一件事不是急着上机，而是做好这些准备工作：

检查电源功率：RTX4060Ti建议使用550W以上电源，确保你的电源接口和功率足够
安装显卡驱动：到NVIDIA官网下载最新Game Ready驱动，而不是Studio驱动
验证显卡状态：安装完成后，在cmd运行nvidia-smi，应该能看到类似这样的输出：

+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.98 Driver Version: 535.98 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 4060 Ti On | 00000000:01:00.0 On | N/A | | 30% 45℃ P8 12W / 160W | 100MiB / 16384MiB | 0% Default | +-----------------------------------------+----------------------+----------------------+

注意：如果显示CUDA Version为N/A，说明驱动安装有问题，需要重新安装

2. Anaconda环境配置

为什么选择Anaconda？因为它能完美解决Python环境冲突问题。我推荐使用Miniconda而不是完整的Anaconda，因为它更轻量：

# 下载Miniconda安装包（Python 3.10版本） https://docs.conda.io/en/latest/miniconda.html

安装时记得勾选"Add Miniconda to PATH"，这样可以直接在命令行使用conda命令。安装完成后，创建一个专用于PyTorch的环境：

conda create -n pytorch_unet python=3.10 conda activate pytorch_unet

3. CUDA与cuDNN安装指南

RTX4060Ti支持CUDA 11.8到12.x，但考虑到PyTorch的兼容性，我选择了CUDA 11.8组合：

CUDA Toolkit 11.8：
- 下载地址：CUDA Toolkit Archive
- 安装时选择"自定义安装"，只勾选：
  - CUDA
  - Development
  - Documentation
cuDNN 8.9.6：
- 需要注册NVIDIA开发者账号
- 下载后解压到CUDA安装目录（默认是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8）

验证安装是否成功：

nvcc -V # 应显示CUDA 11.8 cd "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\extras\demo_suite" bandwidthTest.exe # 显示Result = PASS

4. PyTorch与依赖库安装

这是最容易出错的环节。根据官方文档和实际测试，RTX4060Ti的最佳PyTorch版本组合是：

conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia

重要提示：不要使用pip安装PyTorch的CUDA版本，conda能自动解决依赖冲突

UNet训练还需要以下依赖库，我整理成了requirements.txt：

tensorboard==2.12.0 scipy==1.10.1 numpy==1.23.5 matplotlib==3.7.1 opencv-python==4.7.0.72 tqdm==4.65.0 h5py==3.8.0 pillow==9.5.0 imageio==2.31.1

安装时建议使用清华源加速：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

5. 开发环境配置与验证

我选择VS Code作为开发环境，配置步骤如下：

安装Python扩展和Pylance
设置解释器路径为conda环境中的python.exe
创建launch.json配置：

{ "version": "0.2.0", "configurations": [ { "name": "Python: Current File", "type": "python", "request": "launch", "program": "${file}", "console": "integratedTerminal", "justMyCode": true } ] }

验证PyTorch是否能正确识别显卡：

import torch print(f"PyTorch版本: {torch.__version__}") print(f"CUDA可用: {torch.cuda.is_available()}") print(f"GPU数量: {torch.cuda.device_count()}") print(f"当前GPU: {torch.cuda.current_device()}") print(f"GPU名称: {torch.cuda.get_device_name(0)}")

预期输出应该显示CUDA可用且能正确识别RTX4060Ti。

6. UNet项目实战配置

以Bubbliiiing的UNet实现为例，克隆仓库后需要特别注意：

数据集路径配置：修改train.py中的dataset_path
调整batch size：RTX4060Ti 16GB显存建议设置为8-12
启用混合精度训练：

scaler = torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): outputs = model(inputs) loss = criterion(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

训练时监控显存使用情况：

nvidia-smi -l 1 # 每秒刷新一次显存使用情况

7. 常见问题解决方案

问题1：torch.cuda.is_available()返回False

检查驱动版本：nvidia-smi显示的CUDA版本应≥PyTorch需要的版本
确认PyTorch安装的是CUDA版本：print(torch.version.cuda)

问题2：训练时出现CUDA out of memory

减小batch size
使用torch.cuda.empty_cache()
检查是否有其他程序占用显存

问题3：DLL加载失败

重新安装VC++运行库
检查环境变量PATH是否包含CUDA的bin路径

经过一周的实际使用，RTX4060Ti在UNet训练中表现出色，相比我之前用的GTX 1660，训练速度提升了约3倍。最让我惊喜的是它的能效比，满载时温度很少超过75℃，风扇噪音也控制得很好。

RTX4060Ti到手后，我如何在Windows上一步步配好PyTorch+UNet环境（附完整依赖清单）