4卡RTX 5060Ti服务器 llama.cpp 测试-平芜编程栈

（2026 年 04 月 03 日）

4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告

测试时间：2026年04月03日

系统环境：Ubuntu 22.04 LTS

内核版本：6.8.0-106-generic

GPU配置：4 × NVIDIA GeForce RTX 5060Ti（16GB GDDR6）

驱动版本：550.127.11

CUDA版本：12.4

推理框架：llama.cpp（b8589-08f21453a）

测试模型：Qwen3-32B-Q4_K_M.gguf（4bit量化）

宝藏：4张七彩虹5060Ti 16G（风扇卡）一样顺畅跑模型

一、硬件与系统准备

1.1 硬件检测

Bash
lspci | grep -i nvidia

正常输出：4条NVIDIA Corporation Device 2704（RTX 5060Ti 专属设备ID）

1.2 系统基础优化

Bash
# 禁用开源驱动 Nouveau
sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist-nouveau.conf'
sudo update-initramfs -u
sudo reboot

# 安装推荐HWE内核
sudo apt update
sudo apt install linux-generic-hwe-22.04 -y
sudo reboo

# 验证HWE内核

uname -r

显示：6.8.0-107-generic

二、NVIDIA 驱动 + CUDA 安装

2.1下载安装官方稳定驱动（595适配 5060Ti）

Bash
chmod +x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms

2.2 安装 CUDA 13.2（与 595驱动匹配）

Bash
sudo chmod +x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run

# 配置环境变量
echo 'export PATH=/usr/local/cuda-13.2/bin:$PATH' >> ~/.bashrc

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

source ~/.bashrc

# 验证

nvidia-smi
nvcc -V

输出：CUDA 13.2 正常。

三、llama.cpp 编译（4卡5060Ti专用）

3.1 安装编译依赖

Bash
sudo apt update && sudo apt install git build-essential cmake pkg-config libopenblas-dev -y

3.2准备GGUF模型（测试用）

下载测试模型（以Qwen3 32B Q4_K_M为例）

Bash
# 进入模型目录
mkdir -p models && cd models

# 下载Qwen3 32B Q4_K_M量化模型（4-bit，显存友好）
wget-chttps://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.gguf

cd ..

3.3编译（开启CUDA、算力sm_120）

Bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
rm -rf build && mkdir build

cmake -B build \
-DGGML_CUDA=ON \
-DGGML_CUDA_ARCHS=120 \
-DCMAKE_BUILD_TYPE=Release

cmake --build build -j$(nproc)

四、4卡GPU状态验证

4.1 显卡基础检查

Bash
nvidia-smi

显示：4张 RTX 5060Ti，每张16GB显存，驱动590、CUDA 13.2 正常识别。

4.2 llama.cpp 多卡识别

Bash

cd llama.cpp
./build/bin/llama-cli --help | grep -E "cuda|gpu"

输出：

五、单卡推理测试

5.1 测试命令

Bash
./build/bin/llama-cli \

-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \

--gpu-layers 40 \

--main-gpu 0 \

-t 16 \

-c 4096 \

-p "Hello"

[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]

5.2 单卡性能

Prompt 速度：22.3token/s

Generation 速度：7.3token/s

显存占用：12–14GB / 16GB

六、4卡并行推理测试

6.1 测试命令

Bash
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 1024 \
--gpu-layers 80 \
-t 32 \
-c 16384 \
-p "请写一篇4卡RTX 5060Ti运行大模型的技术概述" \
--batch-size 1024 \
--mlock \
--flash-attn on

[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]

6.2 4卡性能结果

Prompt 速度：253token/s

Generation 速度：30token/s

七、基准性能测试（llama-bench）

Bash
./build/bin/llama-bench \
./build/bin/llama-bench \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-t 64 \
-p 512,2048,8192 \
-n 128,512,2048 \
-ngl 99 \
-b 2048 \
-ub 512 \
-fa 1 \
-r 3 \
2>&1 | tee benchmark_results.txt

八、结论与最佳实践

8.1 核心结论

4卡RTX 5060Ti 可稳定跑 32B级4bit模型，多卡分摊显存无压力。
风扇卡购买无压力，单卡4000元，4张卡能满足龙虾需求

适合：中小企业私有化部署、本地大模型推理、低延迟API服务。

8.2 推荐配置

量化等级：Q4_K_M（平衡速度与显存）

--gpu-layers：70–90

必开参数：--flash-attn on --mlock

上下文窗口：16384 最稳

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128 | 20.57 ± 0.00 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512 | 20.49 ± 0.01 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048 | 20.18 ± 0.00 |

小企业，可以搞一台，4张风扇卡，能支持小企业龙虾

BGE-Large-Zh惊艳效果展示：紫色UI热力图+高精度匹配结果真实截图

BGE-Large-Zh惊艳效果展示：紫色UI热力图高精度匹配结果真实截图 1. 核心能力概览 BGE-Large-Zh语义向量化工具基于业界领先的BAAI/bge-large-zh-v1.5模型开发，专门针对中文语义理解场景进行了深度优化。这个工具最吸引人的地方在于，它能够将…

李华

CHORD-X深度研究报告生成终端LaTeX排版集成：生成可直接编译的学术报告

CHORD-X深度研究报告生成终端LaTeX排版集成：生成可直接编译的学术报告每次写学术报告或者技术文档，最头疼的是什么？对我而言，不是内容本身，而是最后的排版。内容写好了，却要花大量时间在Word里调整格式、…

$作者头像$ 李华

深度学习项目训练环境作品集：10类常见图像分类任务的统一训练模板与结果汇总

深度学习项目训练环境作品集：10类常见图像分类任务的统一训练模板与结果汇总 1. 环境准备与快速上手深度学习项目训练往往需要复杂的环境配置，从框架安装到依赖库配置，整个过程耗时且容易出错。本镜像基于深度学习项目改进与实战专栏&…

李华

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：古风人物图→衣袖飘动+发带飞扬动态视频

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：古风人物图→衣袖飘动发带飞扬动态视频 1. 模型效果震撼开场想象一下，你有一张精美的古风人物插画，画中女子衣袂飘飘、发带轻扬。现在，只需一个简单的操作，就能让这幅静态画…

李华

使用GitHub Actions实现Qwen3-VL:30B模型的CI/CD自动化

使用GitHub Actions实现Qwen3-VL:30B模型的CI/CD自动化 1. 引言在AI模型开发中，频繁的代码更新、模型训练和部署测试是家常便饭。每次手动执行这些重复性工作不仅耗时费力，还容易出错。想象一下这样的场景：你刚优化了模型的一个小参数&…

李华

QwQ-32B效果实测：ollama环境下跨文档逻辑关联推理案例

QwQ-32B效果实测：ollama环境下跨文档逻辑关联推理案例 1. 模型简介与部署准备 QwQ-32B是Qwen系列中具备强大推理能力的语言模型，与传统指令调优模型相比，它在解决复杂问题和逻辑推理任务上表现更加出色。这款拥有325亿参数的模型采用了先进…

李华