你的大模型为什么越跑越慢？CompressKV：只存“关键记忆“，让长文本推理快10倍-平芜编程栈

🚀 你的大模型为什么越跑越慢？CompressKV：只存"关键记忆"，让长文本推理快10倍

📋 目录

一、从"背单词"说起：KV缓存是什么
二、问题：为什么大模型越跑越慢？
三、现有方案的坑：所有头"一刀切"
四、CompressKV的解法：找到"最会找重点"的头
五、层间分配：不是每层都一样重要
六、效果有多强？数据说话
七、伪代码：核心逻辑长什么样
八、能跟现有技术叠buff吗？
九、总结与展望
十、参考资料

一、从"背单词"说起：KV缓存是什么

想象一下你在考英语阅读理解，文章有5000个单词。你读完文章后，需要回答5个问题。

你不可能每回答一个问题就把5000个单词重新读一遍。你会怎么做？你会在草稿纸上记下关键信息：

主角叫"Tom"（第1段）
事件发生在"1920年"（第3段）
关键结论在第8段

这些笔记就是你的**“缓存”**——你不需要反复阅读原文，看笔记就够了。

大语言模型（LLM）也有类似的笔记系统，叫做 KV 缓存。

当你在跟 ChatGPT 聊天时，模型会记住你之前说的每一句话，把这些信息编码成Key（键）和Value（值）对存在"内存"里。这样当它生成下一个词时，就能快速"翻看笔记"，而不是把整段对话重新理解一遍。

用户: "请帮我总结这篇关于AI的论文，重点是创新点和实验结果。" 模型: 我需要记住"AI论文""创新点""实验结果"这些关键词... → 存入 KV 缓存

但是！如果你的对话越来越长（比如扔给模型一本10万字的小说），这个"草稿纸"就会越来越厚。

上下文长度	KV缓存大小（Llama 3.1 8B）	占用的GPU内存
1K tokens	~0.5 GB	轻松
4K tokens	~2 GB	还行
32K tokens	~16 GB	开始紧张
128K tokens	~64 GB	爆掉了！

💡KV缓存的大小跟上下文长度是线性关系。你输入的文字越长，显存占用就越大，推理速度也越慢。这是长文本推理的核心瓶颈。

二、问题：为什么大模型越跑越慢？

2.1 注意力机制：模型的"注意力"是有限的

大模型使用**注意力机制（Attention）**来理解上下文。简单说，就是生成每个词时，模型会"回头看"之前的所有词，给每个词打个重要性分数，重点关注重要的词。

# 注意力机制伪代码defattention(query,key,value):scores=query @ key.T# 计算每个词的重要性分数weights=softmax(scores)# 归一化成概率output=weights @ value# 加权求和，重点关注重要词returnoutput

2.2 多头注意力：很多"专家"在投票

现代LLM（如 Llama、Qwen、Mistral）使用分组查询注意力（GQA），把注意力的"专家"分成多个头（head）。每个头负责不同方面的理解：

🧑‍⚕️头A：专门关注语法结构（主谓宾）
🕵️头B：专门寻找关键实体（人名、地名）
📊头C：专门捕捉逻辑关系（因果、转折）

这些头一起"投票"决定哪些词重要。但问题是——它们的"票"是等权的吗？

三、现有方案的坑：所有头"一刀切"

3.1 现有方法：谁喊得大声就听谁的

为了节省KV缓存，研究人员想了很多办法。最主流的是KV缓存驱逐（Eviction）：只保留重要的token，扔掉不重要的。

现有方法通常是这么做的：

# 现有方法（如SnapKV）的简化逻辑defselect_important_tokens(all_heads,num_to_keep):# 1. 把每个头的注意力分数加起来（平均）aggregated_scores=sum(head.attention_scoresforheadinall_heads)# 2. 选分数最高的前N个tokentop_indices=top_k(aggregated_scores,num_to_keep)returntop_indices

看起来合理，但有个致命缺陷。

3.2 流注意力头：“我只看开头和结尾”

在GQA中，有一类特殊的头叫做流注意力头（Streaming Head）。它们的行为非常固定——几乎只关注prompt的开头（第一个token）和结尾（最近的token）。

就像一个评委，不管舞台上表演什么，他永远只看第一个节目和最后一个节目。

上图：Streaming Head的注意力分数——开头和结尾几乎100%，中间几乎为0

当把所有头的注意力分数加起来时，这些"极端分子"的分数会淹没其他头的声音。结果是什么？

中间那些包含关键信息的token，被无情地驱逐了！

举个例子：

Prompt: "请根据以下文章回答：小明早上吃了面包，中午吃了面条，晚上吃了三明治。问：小明晚上吃了什么？" Streaming Head的注意力：["请", "三明治"] Semantic Head的注意力：["晚上", "吃了", "三明治"] 聚合后：["请", "三明治"] → 中间token "晚上" 被驱逐了 → 但如果没有"晚上"，模型可能不知道"三明治"是晚餐还是午餐！

⚠️这就是现有方法的核心问题：Streaming Head主导了驱逐决策，导致语义上重要的中间token被错误地丢弃。

四、CompressKV的解法：找到"最会找重点"的头

4.1 核心洞察：有些头天生"更会找重点"

CompressKV的作者发现了一个关键现象：在注意力头中，有一类特殊的头，它们不仅能找到正确答案，还能关注答案周围的语义上下文。

这些头被称为语义检索头（Semantic Retrieval Heads, SRH）。

类型	特点	比喻
Streaming Head	只看开头和结尾	只看目录和最后一页的人
传统检索头（TRH）	只看精确匹配的词	只会Ctrl+F搜索的人
语义检索头（SRH）	关注答案+周围语义上下文	真正理解上下文，会划重点的人

4.2 怎么找到这些"最会找重点"的头？

CompressKV使用了一个巧妙的**跨度聚合（Span Aggregation）**标准：

defscore_srh(head,dataset):""" 计算一个头是否是语义检索头 核心思想：看它在生成答案时，是否关注了答案周围的整个语义区间 """score=0forsampleindataset:answer_span=sample.answer_tokens# 正确答案的区间，如"sandwich"fortinrange(num_generation_steps):ifgenerated_token[t]inanswer_span:# 关键：不是只看某个token的分数，# 而是看整个答案区间的注意力总和！score+=sum(head.attention_weights[t,j]forjinanswer_span)returnscore

为什么这样更好？

传统方法要求头的注意力精确命中正确答案的某个token（top-1规则）
SRH方法允许头分散地关注答案周围的一片区域（如"eat"“a”“thing”“sandwich”）
即使某个头没有给"sandwich"最高的注意力，只要它给答案区域整体的关注度高，就被认可

🎯类比：传统方法像找"完全匹配的简历"，SRH方法像找"整体匹配度高的候选人"——后者更灵活，更容易找到真正合适的人。

4.3 用SRH来选择保留哪些token

找到SRH后，CompressKV的token选择逻辑就很简单了：

defcompress_kv_cache(layer,all_heads,budget,num_srh=4):# 1. 识别该层top-k的SRH（离线完成，只需一次）top_srh=get_top_srh(layer,k=num_srh)# 2. 用这些SRH的注意力分数来选择重要token# 只关注"观察窗口"内的最近token（跟SnapKV一致）importance_scores=zeros(num_tokens)forsrhintop_srh:importance_scores+=srh.attention_scores_in_window# 3. 平均并排序，选出top-N个tokenimportance_scores/=num_srh keep_indices=top_k(importance_scores,budget)# 4. 只保留这些token的KV对，其他的驱逐compressed_K=K[keep_indices]compressed_V=V[keep_indices]returncompressed_K,compressed_V

关键优势：

SRH能识别语义上重要的中间token（比如"晚上"“吃了”）
Streaming Head的"噪音"被过滤掉了
同一层内的所有头共享相同的token索引（保持GQA结构）

五、层间分配：不是每层都一样重要

5.1 问题：每层给一样多的预算，合理吗？

现有方法大多给每层分配相同的KV缓存预算。但直觉告诉我们：模型的不同层承担不同的职责。

浅层（前几层）：提取词级别特征、语法结构
中层：提取短语级别特征、局部语义
深层（后几层）：提取句子级别特征、全局语义、推理逻辑

如果每层都给2048个token的预算，可能深层需要更多，浅层可以更少。

5.2 CompressKV的解法：离线估计每层压缩误差

CompressKV的思路很优雅：用压缩前后的输出差异，来衡量每层对压缩的敏感程度。

defestimate_layer_error(model,calibration_data,full_kv_cache):""" 离线计算每层的压缩误差 只需在模型部署前运行一次 """errors=[]forlayerinmodel.layers:# 1. 全缓存输出（作为参考标准）O_full=layer.forward_with_full_cache(query,K_full,V_full)# 2. 只保留少量token的压缩缓存输出K_comp,V_comp=compress_tokens(K_full,V_full,small_budget)O_comp=layer.forward_with_compressed_cache(query,K_comp,V_comp)# 3. 计算Frobenius范数差异（矩阵差异的整体度量）error=frobenius_norm(O_comp-O_full)/(frobenius_norm(O_full)+1e-6)errors.append(error)# 4. 归一化，得到每层的相对敏感程度normalized_errors=errors/sum(errors)returnnormalized_errors

5.3 预算分配：误差大的层多分，误差小的层少分

有了每层的误差分数，预算分配就变得直观了：

defallocate_budget(total_budget,layer_errors,min_per_layer=32,max_multiplier=3):num_layers=len(layer_errors)base_per_layer=total_budget//num_layers# 1. 先给每层保底预算budgets=[min_per_layer]*num_layers remaining=total_budget-min_per_layer*num_layers# 2. 按误差比例分配剩余预算fori,errinenumerate(layer_errors):extra=remaining*err max_budget=max_multiplier*base_per_layer budgets[i]=min(min_per_layer+extra,max_budget)returnbudgets

🎯类比：就像考试前复习时间有限，你应该多花时间在自己薄弱的科目上，而不是每科平均分配。CompressKV就是给"对压缩更敏感"的层更多预算。

六、效果有多强？数据说话

6.1 LongBench：长文本理解综合基准

LongBench包含16个长文本任务，涵盖单文档问答、多文档问答、摘要、代码补全等。

Llama 3.1 8B 上的结果（固定KV缓存预算）：

方法	256 token预算	1024 token预算
FullKV（无压缩，基准）	49.08	—
StreamingLLM	33.92	36.95
SnapKV	45.21	47.82
PyramidKV	44.36	47.65
CAKE	46.30	47.97
HeadKV	44.11	47.05
CompressKV	46.71	48.24

关键发现：

在256 token的紧预算下，CompressKV领先所有基线（46.71 vs 46.30 CAKE）
在1024 token预算下，CompressKV甚至超过了无压缩的FullKV？等等，48.24 > 49.08？让我重新检查数据… 实际上48.24 < 49.08，但差距非常小（只有0.84分），而且使用了约1/20的内存！
在4个模型（Llama、Mistral、Qwen 14B、Qwen 32B）上一致领先

6.2 Needle-in-a-Haystack：大海捞针测试

“Needle-in-a-Haystack”（NIAH）是个经典测试：在超长文本中藏一个关键信息（比如"小明最喜欢的数字是4826"），然后问模型这个数字是什么。

Llama 3.1 8B 的 NIAH 结果：

关键数据：
2048 token KV缓存（全缓存的约5%）：近无损性能
256 token KV缓存（全缓存的约0.7%）：仍保持90%的原始准确率！
相比之下，AdaKV和HeadKV在低预算下表现较差

这意味着什么？你可以把KV缓存压缩到原来的1/100，还能保持90%的准确率！

6.3 只选4个SRH就够了！

CompressKV的消融实验证明了一个惊人的事实：每层只需选择top-4个SRH，就能达到最佳性能。

每层SRH数量	平均准确率	相比Top-4
Top-2	44.33	-0.63
Top-4	44.96	基准
Top-6	44.79	-0.17
Top-12	44.96	0.00
Top-24	44.30	-0.66

💡为什么Top-24反而变差？因为选太多SRH会引入"噪音"头，稀释了真正重要的头的信号。这符合"少即是多"的直觉。

6.4 推理效率：内存和延迟

内存：在固定KV预算下，CompressKV的峰值内存与全缓存相比大幅降低，且与上下文长度无关
延迟：驱逐方法的解码延迟保持恒定（不随上下文增长），而全缓存的延迟线性增长
首token时间（TTFT）：所有方法都随上下文增加，这是prefilling阶段的固有成本

📈 ** CompressKV 在 128K 上下文下，只使用 1024-token KV缓存，内存占用仅为全缓存的约1.5%，而推理速度大幅提升。**

七、伪代码：核心逻辑长什么样

以下是CompressKV的完整推理流程伪代码：

classCompressKV:def__init__(self,model,calibration_data,num_srh=4):self.model=model self.num_srh=num_srh# ===== 离线阶段（只需运行一次）=====# 1. 识别每层的语义检索头self.srh_per_layer=self.identify_srh(calibration_data)# 2. 估计每层的压缩误差self.layer_errors=self.estimate_layer_errors(calibration_data)defidentify_srh(self,calibration_data):"""识别语义检索头（公式1）"""srh_scores={}forlayerinself.model.layers:forheadinlayer.attention_heads:score=0forsampleincalibration_data:answer_span=sample.answer_token_indicesforstepinrange(sample.num_generation_steps):ifsample.generated_token[step]inanswer_span:# 跨度聚合：关注整个答案区间score+=sum(head.attention[step,idx]foridxinanswer_span)srh_scores[head]=score# 选top-ktop_heads=sorted(srh_scores,key=srh_scores.get,reverse=True)[:self.num_srh]srh_per_layer[layer]=top_headsreturnsrh_per_layerdefestimate_layer_errors(self,calibration_data):"""离线计算每层压缩误差"""errors=[]forlayerinself.model.layers:# 全缓存 vs 压缩缓存的输出差异O_full=layer.forward(query,K_full,V_full)K_comp,V_comp=self.compress(layer,K_full,V_full,small_budget=128)O_comp=layer.forward(query,K_comp,V_comp)error=frobenius_norm(O_comp-O_full)/frobenius_norm(O_full)errors.append(error)# 归一化return[e/sum(errors)foreinerrors]defcompress(self,layer,K,V,budget):"""压缩KV缓存：只保留SRH认为重要的token"""srhs=self.srh_per_layer[layer]# 聚合SRH的注意力分数（在观察窗口内）scores=zeros(K.shape[0])forsrhinsrhs:scores+=srh.get_attention_scores(window_size=64)scores/=len(srhs)# 选top-Nkeep_indices=top_k(scores,budget)returnK[keep_indices],V[keep_indices]defallocate_budget(self,total_budget):"""按误差比例分配层间预算"""num_layers=len(self.model.layers)base=total_budget//num_layers budgets=[]forerrinself.layer_errors:# 保底32个token，最多3倍基础预算b=max(32,min(3*base,total_budget*err))budgets.append(int(b))returnbudgetsdefgenerate(self,prompt,total_budget=1024):"""推理入口"""# 1. 预填充：计算初始KV缓存K_cache,V_cache=self.model.prefill(prompt)# 2. 按层分配预算layer_budgets=self.allocate_budget(total_budget)# 3. 逐层压缩fori,layerinenumerate(self.model.layers):K_cache[i],V_cache[i]=self.compress(layer,K_cache[i],V_cache[i],layer_budgets[i])# 4. 解码生成（使用压缩后的KV缓存）output=[]forstepinrange(max_new_tokens):next_token=self.model.decode_step(K_cache,V_cache)output.append(next_token)return''.join(output)

八、能跟现有技术叠buff吗？

8.1 与Prefilling加速器（MInference/XAttention）

这些技术优化的是预填充阶段（把长文本变成KV缓存的过程），而CompressKV优化的是解码阶段（使用KV缓存生成回复的过程）。

它们是完全正交的！可以一起使用，既加速预填充，又减少解码内存。

8.2 与KV缓存量化（KIVI）

KIVI把KV缓存的值从16-bit压缩到2-bit甚至1-bit，但保留所有token。CompressKV保留全精度但只保留重要token。

两者可以组合使用：

方案	KV内存占用	准确率
FullKV（16-bit）	100%	基准
KIVI 2-bit	~12.5%	接近基准
KIVI 1-bit	~6.25%	大幅下降
CompressKV	~3%	接近基准
CompressKV + KIVI 2-bit	~1.6%	仍保持强劲性能！

🚀1.6%的内存占用意味着什么？原本需要64GB显存才能跑128K上下文，现在只需要约1GB！

8.3 与头级分配方法（HeadKV/AdaKV）

HeadCompressKV= CompressKV的token选择 + HeadKV的头级预算分配
AdaCompressKV= CompressKV的token选择 + 误差感知层间分配 + AdaKV

实验表明，这些组合变体在LongBench上提升近2分，在NIAH上提升达11分（紧内存下）！

九、总结与展望

核心贡献

语义检索头（SRH）：识别那些真正"会找重点"的注意力头，避免Streaming Head的噪音主导驱逐决策
离线误差感知层间分配：通过测量压缩前后的输出差异，智能地在不同层之间分配KV缓存预算
极简高效：只需每层4个SRH，无需在线计算，部署零额外开销

关键数据回顾

指标	数值
LongBench问答（仅3% KV缓存）	保留97%全缓存性能
NIAH（仅0.7% KV缓存）	90%准确率
每层所需SRH	4个
与KIVI 2-bit组合后内存占用	约1.6%

对开发者的启示

如果你在做RAG（检索增强生成）或长文档处理，CompressKV的思路值得借鉴：不是所有信息都重要，找到"会找重点"的机制是关键
如果你在部署LLM到资源受限环境（边缘设备、移动App），KV缓存压缩是必修课
离线分析 + 在线推理的架构模式很优雅：把计算移到预处理阶段，运行时几乎零开销

未来方向

将SRH的概念扩展到其他注意力变体（如稀疏注意力、线性注意力）
动态调整SRH（目前是一次性离线识别）
与更激进的量化方案（如1-bit）结合，进一步压缩内存

十、参考资料

论文原文: CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference
代码仓库: https://github.com/TUDa-HWAI/CompressKV
相关论文:
- StreamingLLM: arXiv:2309.17453
- SnapKV: arXiv:2404.14469
- HeadKV: arXiv:2406.07018
- KIVI: arXiv:2402.02750

📝作者: Marst.zhang | 📅整理日期: 2026-06-25
如果这篇博客对你有帮助，欢迎点赞、收藏、转发！有任何问题欢迎在评论区交流 👇

你的大模型为什么越跑越慢？CompressKV：只存“关键记忆“，让长文本推理快10倍