LLM 推理加速：深入 vLLM 源码，揭秘 PagedAttention 如何让吞吐量提升 20 倍？-平芜编程栈

标签：#LLM #vLLM #PagedAttention #CUDA #Inference #SystemDesign

📉 前言：显存碎片的“诅咒”

在 vLLM 出现之前，HuggingFace Transformers 的默认推理极其浪费显存。
LLM 推理是自回归的（生成一个 Token，存入 KV Cache，再生成下一个）。传统的 KV Cache 管理方式是预分配 (Pre-allocation)：
假设最大序列长度是 2048，系统就会直接在显存里划出一块能存 2048 个 Token 的连续空间。

问题来了：

内部碎片：用户只问了句 “Hi”，占用了 5 个 Token，剩下的 2043 个 Token 空间全部闲置，但无法被其他请求使用。
外部碎片：不同请求的长短不一，导致显存中充斥着无法合并的小空洞。

这导致 GPU 显存利用率通常不到20%。显存塞满了，但没跑几个并发请求，吞吐量自然上不去。

💡 一、灵感来源：操作系统的虚拟内存

vLLM 的作者从操作系统（OS）中找到了灵感。
OS 是怎么解决内存碎片的？分页 (Paging)。

逻辑上连续的内存（虚拟内存），物理上可以是离散的（物理页框）

Hive与DynamoDB集成：云原生大数据方案

Hive与DynamoDB集成：云原生大数据方案关键词：Hive、DynamoDB、云原生、大数据集成、数据处理摘要：本文聚焦于Hive与DynamoDB的集成，旨在探讨云原生环境下的大数据解决方案。首先介绍了Hive和DynamoDB的背景信息，包括它们的特点和适用场景。接着详细阐述了两者集成的核心…

李华

我读Population Based Training of Neural Networks

原文点此 1.intro PBT是一种简单的异步优化算法，它能够有效利用固定的计算预算，通过联合优化一组模型和其超参数以最大化性能。 2.methodology 目标是优化模型fff的参数θ\thetaθ以最大化目标函数Q^\hat {\mathcal{Q}}Q^, 实际性能指标Q\mathcal{…