news 2026/7/3 3:19:21

显存还没爆,大模型先崩了?你的 KV Cache 正在悄悄杀掉你的显存预算

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
显存还没爆,大模型先崩了?你的 KV Cache 正在悄悄杀掉你的显存预算

同一个 Llama-3-8B(Q4_K_M),同一段 prompt。-ngl 0纯 CPU 解码,我这台机器上大约 2 tokens/s;-ngl 99全塞进一张 RTX 4090,稳定在 150 tokens/s 上下——75 倍。中间那条曲线不是直线,也不是你以为的样子。

先说一个大多数教程都写错的事实:n_gpu_layers=10不是把10 层放上 GPU,而是把最后10 个层放上去。源码里那行判据是il >= i_gpu_starti_gpu_start = n_layer_all + 1 - n_gpu_layers。方向是反的。

再说一个更容易踩的:一个 32 层的模型,你以为-ngl 32就全卸载了,其实第 0 层还留在 CPU 上——因为输出层也占一个卸载名额,真正全卸载要-ngl 33(或者干脆-1)。这一层没放对,解码带宽就卡在 CPU 那条 50 GB/s 的内存总线上,而不是 4090 那条 1 TB/s 的 HBM 上。差的不是一点点,是一个数量级。

这篇文章把 llama.cpp 的层卸载逻辑从源码拆到实测:一层"卸载"到底改变了什么、层怎么分到设备(src/llama-model.cppload_tensors)、token embedding 为什么恒在 CPU、KV cache 怎么和权重抢显存、多卡怎么按tens

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 3:16:14

掌握MaxBot自动化抢票机器人:实现高效智能抢票的实战方案

掌握MaxBot自动化抢票机器人:实现高效智能抢票的实战方案 【免费下载链接】tix_bot Max搶票機器人(maxbot) help you quickly buy your tickets 项目地址: https://gitcode.com/gh_mirrors/ti/tix_bot MaxBot抢票机器人是一款基于Python 3和Selenium技术开发…

作者头像 李华
网站建设 2026/7/3 3:16:02

Hive 内置函数

字符串函数-- 字符串长度 select length(hello) -- 替换 select replace(hello,l,x) -- 截取 select substr(hello,2,3) -- 拼接 select concat(hello,hello,hello) select hello||hello||helloselect concat(id,name)from hero -- 拼接时添加分隔符, 分隔符写在第一个参数 s…

作者头像 李华
网站建设 2026/7/3 3:13:00

《算法设计与分析》全套PPT课件(西交)

《算法设计与分析》全套课件(西交) 课件内容: 第1章鄭法引论.pdf 第2章递归与分治策略.pdf 第3章动态规划-1.pdf 第4章贪心算法.pdf 第5章回溯法-1.pdf 第6章分支限界法-1.pdf 第7章概率算法.pdf 第8章NP完全性理论.pdf 第9章近似算法.pdf 第…

作者头像 李华
网站建设 2026/7/3 3:05:55

Web安全实战指南:从SQL注入到CSRF的攻防原理与代码级防御

1. 项目概述:为什么Web安全是每个开发者的必修课最近几年,我处理过不少线上应急响应,从数据库被拖到用户信息泄露,再到服务器被当成“肉鸡”去攻击别人,这些事故的根源,十有八九都出在Web应用的安全漏洞上。…

作者头像 李华
网站建设 2026/7/3 2:54:31

Gemini API多模态AI开发实战指南

1. Gemini API 快速入门指南如果你正在寻找一个强大的AI开发工具,Gemini API绝对值得关注。作为Google推出的新一代AI开发接口,它让开发者能够轻松调用包括Gemini、Veo、Nano Banana等在内的多种先进模型。我最近在实际项目中使用了这个API,发…

作者头像 李华