news 2026/5/22 3:21:23

4卡RTX 5060Ti服务器 llama.cpp 测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
4卡RTX 5060Ti服务器 llama.cpp 测试

(2026 年 04 月 03 日)

4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告

测试时间:2026年04月03日

系统环境:Ubuntu 22.04 LTS

内核版本:6.8.0-106-generic

GPU配置:4 × NVIDIA GeForce RTX 5060Ti(16GB GDDR6)

驱动版本:550.127.11

CUDA版本:12.4

推理框架:llama.cpp(b8589-08f21453a)

测试模型:Qwen3-32B-Q4_K_M.gguf(4bit量化)

宝藏:4张七彩虹5060Ti 16G(风扇卡)一样顺畅跑模型

一、硬件与系统准备

1.1 硬件检测

Bash
lspci | grep -i nvidia

正常输出:4条NVIDIA Corporation Device 2704(RTX 5060Ti 专属设备ID)

1.2 系统基础优化

Bash
# 禁用开源驱动 Nouveau
sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist-nouveau.conf'
sudo update-initramfs -u
sudo reboot

# 安装推荐HWE内核
sudo apt update
sudo apt install linux-generic-hwe-22.04 -y
sudo reboo

# 验证HWE内核

uname -r

显示:6.8.0-107-generic

二、NVIDIA 驱动 + CUDA 安装

2.1下载安装官方稳定驱动(595适配 5060Ti)

Bash
chmod +x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms

2.2 安装 CUDA 13.2(与 595驱动匹配)

Bash
sudo chmod +x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run


# 配置环境变量
echo 'export PATH=/usr/local/cuda-13.2/bin:$PATH' >> ~/.bashrc

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

source ~/.bashrc



# 验证

nvidia-smi
nvcc -V

输出:CUDA 13.2 正常。

三、llama.cpp 编译(4卡5060Ti专用)

3.1 安装编译依赖

Bash
sudo apt update && sudo apt install git build-essential cmake pkg-config libopenblas-dev -y

3.2准备GGUF模型(测试用)

下载测试模型(以Qwen3 32B Q4_K_M为例)

Bash
# 进入模型目录
mkdir -p models && cd models

# 下载Qwen3 32B Q4_K_M量化模型(4-bit,显存友好)
wget-chttps://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.gguf



cd ..

3.3编译(开启CUDA、算力sm_120

Bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
rm -rf build && mkdir build

cmake -B build \
-DGGML_CUDA=ON \
-DGGML_CUDA_ARCHS=120 \
-DCMAKE_BUILD_TYPE=Release

cmake --build build -j$(nproc)

四、4卡GPU状态验证

4.1 显卡基础检查

Bash
nvidia-smi

显示:4张 RTX 5060Ti,每张16GB显存,驱动590、CUDA 13.2 正常识别。

4.2 llama.cpp 多卡识别

Bash

cd llama.cpp
./build/bin/llama-cli --help | grep -E "cuda|gpu"

输出:

五、单卡推理测试

5.1 测试命令

Bash
./build/bin/llama-cli \

-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \

--gpu-layers 40 \

--main-gpu 0 \

-t 16 \

-c 4096 \

-p "Hello"

[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]

5.2 单卡性能

  • Prompt 速度:22.3token/s
  • Generation 速度:7.3token/s
  • 显存占用:12–14GB / 16GB

六、4卡并行推理测试

6.1 测试命令

Bash
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 1024 \
--gpu-layers 80 \
-t 32 \
-c 16384 \
-p "请写一篇4卡RTX 5060Ti运行大模型的技术概述" \
--batch-size 1024 \
--mlock \
--flash-attn on

[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]

6.2 4卡性能结果

  • Prompt 速度:253token/s
  • Generation 速度:30token/s

七、基准性能测试(llama-bench)

Bash
./build/bin/llama-bench \
./build/bin/llama-bench \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-t 64 \
-p 512,2048,8192 \
-n 128,512,2048 \
-ngl 99 \
-b 2048 \
-ub 512 \
-fa 1 \
-r 3 \
2>&1 | tee benchmark_results.txt

八、结论与最佳实践

8.1 核心结论

  1. 4卡RTX 5060Ti 可稳定跑 32B级4bit模型,多卡分摊显存无压力。
  2. 风扇卡购买 无压力,单卡4000元,4张卡能满足龙虾需求
  1. 适合:中小企业私有化部署、本地大模型推理、低延迟API服务

8.2 推荐配置

  • 量化等级:Q4_K_M(平衡速度与显存)
  • --gpu-layers:70–90
  • 必开参数:--flash-attn on --mlock
  • 上下文窗口:16384 最稳

| model | size |params| backend | ngl | threads | n_batch | fa | test | t/s |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128 | 20.57 ± 0.00 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512 | 20.49 ± 0.01 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048 | 20.18 ± 0.00 |

小企业,可以搞一台,4张风扇卡,能支持小企业龙虾

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 3:21:22

BGE-Large-Zh惊艳效果展示:紫色UI热力图+高精度匹配结果真实截图

BGE-Large-Zh惊艳效果展示:紫色UI热力图高精度匹配结果真实截图 1. 核心能力概览 BGE-Large-Zh语义向量化工具基于业界领先的BAAI/bge-large-zh-v1.5模型开发,专门针对中文语义理解场景进行了深度优化。这个工具最吸引人的地方在于,它能够将…

作者头像 李华
网站建设 2026/5/18 10:55:17

使用GitHub Actions实现Qwen3-VL:30B模型的CI/CD自动化

使用GitHub Actions实现Qwen3-VL:30B模型的CI/CD自动化 1. 引言 在AI模型开发中,频繁的代码更新、模型训练和部署测试是家常便饭。每次手动执行这些重复性工作不仅耗时费力,还容易出错。想象一下这样的场景:你刚优化了模型的一个小参数&…

作者头像 李华
网站建设 2026/5/4 2:13:37

QwQ-32B效果实测:ollama环境下跨文档逻辑关联推理案例

QwQ-32B效果实测:ollama环境下跨文档逻辑关联推理案例 1. 模型简介与部署准备 QwQ-32B是Qwen系列中具备强大推理能力的语言模型,与传统指令调优模型相比,它在解决复杂问题和逻辑推理任务上表现更加出色。这款拥有325亿参数的模型采用了先进…

作者头像 李华