news 2026/4/4 2:58:24

LLM 推理加速:深入 vLLM 源码,揭秘 PagedAttention 如何让吞吐量提升 20 倍?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM 推理加速:深入 vLLM 源码,揭秘 PagedAttention 如何让吞吐量提升 20 倍?

标签:#LLM #vLLM #PagedAttention #CUDA #Inference #SystemDesign


📉 前言:显存碎片的“诅咒”

在 vLLM 出现之前,HuggingFace Transformers 的默认推理极其浪费显存。
LLM 推理是自回归的(生成一个 Token,存入 KV Cache,再生成下一个)。传统的 KV Cache 管理方式是预分配 (Pre-allocation)
假设最大序列长度是 2048,系统就会直接在显存里划出一块能存 2048 个 Token 的连续空间。

问题来了:

  1. 内部碎片:用户只问了句 “Hi”,占用了 5 个 Token,剩下的 2043 个 Token 空间全部闲置,但无法被其他请求使用。
  2. 外部碎片:不同请求的长短不一,导致显存中充斥着无法合并的小空洞。

这导致 GPU 显存利用率通常不到20%。显存塞满了,但没跑几个并发请求,吞吐量自然上不去。


💡 一、 灵感来源:操作系统的虚拟内存

vLLM 的作者从操作系统(OS)中找到了灵感。
OS 是怎么解决内存碎片的?分页 (Paging)

  • 逻辑上连续的内存(虚拟内存),物理上可以是离散的(物理页框)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 16:19:08

Hive与DynamoDB集成:云原生大数据方案

Hive与DynamoDB集成:云原生大数据方案 关键词:Hive、DynamoDB、云原生、大数据集成、数据处理 摘要:本文聚焦于Hive与DynamoDB的集成,旨在探讨云原生环境下的大数据解决方案。首先介绍了Hive和DynamoDB的背景信息,包括它们的特点和适用场景。接着详细阐述了两者集成的核心…

作者头像 李华
网站建设 2026/3/20 7:01:12

我读Population Based Training of Neural Networks

原文点此 1.intro PBT是一种简单的异步优化算法,它能够有效利用固定的计算预算,通过联合优化一组模型和其超参数以最大化性能。 2.methodology 目标是优化模型fff的参数θ\thetaθ以最大化目标函数Q^\hat {\mathcal{Q}}Q^​, 实际性能指标Q\mathcal{…

作者头像 李华
网站建设 2026/3/27 9:38:12

union 和 union all的区别

1、union和union all UNION对两个结果集进行并集操作,不包括重复行,相当于使用distinct关键字。而UNION ALL则对两个结果集进行并集操作,包括重复行,即所有结果全部显示,不管是否重复。 UNION操作会去除重复的记录&…

作者头像 李华