vLLM 0.11.0 发布:全面移除 V0 引擎,性能与多模态支持大幅提升
在大模型推理日益成为 AI 应用核心瓶颈的今天,vLLM 再次迈出关键一步。最新发布的vLLM 0.11.0不仅是一次常规版本迭代,更是一场彻底的技术重构——V0 推理引擎正式退出历史舞台,整个项目全面转向统一、现代化的 V1 架构。
这背后是全球社区的集体努力:538 次提交,来自207 名贡献者(其中65 名为新晋开发者),覆盖从底层内核优化到上层 API 设计的方方面面。这一里程碑式更新,标志着 vLLM 正式进入“后 V0 时代”,也为生产环境中的高性能、高并发部署树立了新的标杆。
统一架构:告别碎片化,拥抱 V1 单一路径
过去,vLLM 同时维护着两套推理引擎:老旧但广泛使用的 V0 和新一代的 V1。这种双轨制虽然保证了兼容性,但也带来了代码冗余、逻辑分支复杂、维护成本高等问题。
如今,所有 V0 相关组件——包括AsyncLLMEngine、LLMEngine、MQLLMEngine,以及其配套的注意力后端、序列调度器、采样元数据管理等模块——已被完全从主干代码中移除。
这意味着:
- 用户不再需要纠结“该用哪个引擎”;
- 所有新功能将只面向 V1 开发,避免重复实现;
- 核心执行路径更加清晰,潜在 bug 减少;
- 整体代码库更简洁,可读性和扩展性显著提升。
这场清理不是简单的删除,而是多年技术演进后的自然收敛。它为未来引入更复杂的调度策略、动态批处理机制和分布式优化扫清了障碍。
CUDA Graph 默认升级:FULL_AND_PIECEWISE 模式上线
GPU 利用率是决定推理吞吐的关键因素之一。CUDA Graph 能有效减少内核启动开销,但在实际应用中常面临兼容性挑战。
vLLM 0.11.0 将默认模式由PIECEWISE升级为FULL_AND_PIECEWISE,这是一种兼顾效率与稳定性的混合策略:
- 对于结构规整的模型(如标准 Dense 或 MoE),优先尝试完整图捕获(Full Capture),最大化 GPU 利用率;
- 若检测到不支持全图的特性(如动态路由、细粒度专家选择),则自动退化至分段执行模式,确保服务不中断。
这对多专家模型尤其重要。例如,在 Mixtral 或 Qwen-VL 这类包含条件计算路径的架构中,新模式能在保持稳定性的同时,平均提升10–15% 的吞吐量。
此外,FlashInfer 后端也已深度集成,RoPE 计算通过定制 CUDA 内核实现,速度提升达2 倍以上;Q/K RoPE 操作进一步融合,减少 kernel launch 开销约11%。
多模态能力跃升:视觉语言模型全面支持
随着图文理解、视频分析等场景兴起,vLLM 在多模态领域的投入持续加码。本次发布对主流 MLLM 架构的支持达到新高度。
新增模型支持
- Qwen3-VL 系列:完整支持图像、视频输入,并允许纯文本 fallback
- LongCat-Flash / Dots OCR / CWM / Ling2.0:扩展轻量化视觉任务生态
- OLMo3 / DeepSeek-V3.2-Exp / Qwen3-Next:增强通用语言模型覆盖
视觉编码器优化
多个 ViT-based 模型现已支持ViT 层的数据并行(DP):
- InternVL (#23909)
- Qwen2-VL (#25445)
- Qwen3-VL (#24955)
该优化显著降低显存占用,使得高分辨率图像处理(如 4K 图像切片)在单卡或多卡环境下更加可行。
高级多模态特性
- EVS 视频 token 剪枝 (#22980):针对长视频输入,自动裁剪冗余上下文,控制 context length
- Media UUID 缓存 (#23950):相同媒体资源仅加载一次,避免重复解码开销
- 支持
'path'字段直接传入本地文件路径 (#25081),简化图像接入流程 - 工具调用新增Qwen3-Coder XML 解析器 (#25028)和Hermes 风格标记处理 (#25281)
这些改进让 vLLM 成为企业构建智能客服、内容审核、文档解析等多模态系统的理想底座。
KV Cache CPU Offloading:突破显存瓶颈的新利器
超长上下文 + 高并发 = 显存爆炸。这是当前大模型服务中最常见的痛点。
vLLM 0.11.0 引入了完整的KV Cache CPU Offloading 机制,结合 LRU 策略实现跨设备内存调度:
- 非活跃请求的 KV 缓存页可被卸载至主机内存;
- 使用
CPUOffloadingSpec灵活配置卸载阈值与触发条件; - 基于 PagedAttention 实现细粒度页面置换,不影响活跃会话性能。
这一方案使得在有限 GPU 资源下运行数百个并发对话成为可能。对于聊天机器人、Agent 编排系统这类长生命周期交互场景,尤为实用。
配合 Prompt Cache 共享机制,预设 prompt 可复用 KV 结果,进一步节省计算资源。
V1 引擎持续进化:不只是替代,更是超越
作为唯一保留的推理核心,V1 引擎在本版本中获得了大量增强功能:
| 功能 | 说明 |
|---|---|
| Prompt Embedding 支持 (#24278) | 允许直接传入嵌入向量,适用于 RAG 场景中预计算 embedding 的高效接入 |
| 分片状态加载 (#25308) | 分布式部署时按需加载模型分片,加快冷启动速度 |
| FlexAttention 滑动窗口支持 (#24089) | 适配 Hugging Face 新一代注意力接口,支持局部注意力模式 |
| LLM.apply_model (#18465) | 提供底层模型调用接口,便于高级调试与自定义逻辑注入 |
同时,旧有的 Tokenizer Group 被移除 (#24078),多模态缓存共享机制得到强化 (#20452),整体架构更为紧凑高效。
性能打磨:每一微秒都值得优化
vLLM 团队对底层性能的追求近乎偏执。本次更新中,多个高频路径完成精细化调优:
- 推测解码开销降低 8 倍 (#24986):通过批量并行 Ngram 策略优化 draft model 调度
- FlashInfer 推测解码提速 1.14x (#25196):启用 FlashInfer 后端进行 speculative decoding
- inputs_embeds 避免冗余复制 (#25739):除非启用 prompt_embeds,否则不再将张量复制到 GPU
- DeepGEMM 默认启用 (#24462):带来平均5.5% 吞吐提升
这些看似微小的改动,在高负载场景下累积起来,往往能带来可观的整体收益。
硬件生态全面拓展:不止于 NVIDIA GPU
vLLM 正在积极构建跨平台支持能力,确保在不同硬件架构上都能发挥极致性能。
NVIDIA:Blackwell/Hopper 深度优化
- FP8 FlashInfer MLA 解码 (#24705):利用 TRT-LLM 风格量化加速
- BF16 融合 MoE 支持专家并行 (#25503):充分发挥 Tensor Core 计算潜力
- 修复 B200 上 cutlass_mla 挂起问题 (#24966),保障 Blackwell 平台稳定性
AMD & Intel XPU:异构计算稳步推进
- ROCm 7.0 支持 (#25178):更新依赖链,适配最新工具栈
- MI300X Triton MoE 调优 (#25703):为 GLM-4.5 等模型提供针对性配置
- Intel XPU MoE DP 修复 (#25465):解决精度问题,提升可靠性
- Whisper 模型 XPU 支持 (#25123):拓展语音识别应用场景
RISC-V 与 ARM:迈向全架构覆盖
- RISC-V 64 位支持 (#22112):添加标量运算支持,推动国产化硬件部署
- ARM 非 x86 CPU 支持 (#25166):禁用 oneDNN 线性层以适配 ARM 架构
- ARM 4-bit 融合 MoE (#23809):探索边缘设备上的高效 MoE 推理
这表明 vLLM 不再局限于数据中心级 GPU,而是正逐步走向多样化计算平台。
分布式与大规模服务增强
面对企业级高并发需求,vLLM 在分布式能力方面也有显著进展。
双批次重叠(DBO)机制上线
Double Batch Overlap (DBO)是一种新型流水线技术:
- 在当前 batch 执行 decode 的同时,提前准备下一个 batch 的 prefilled 计算;
- 显著减少 GPU 空闲周期,提升利用率;
- 特别适合 high-throughput 场景,与 DeepEP 方案协同工作效果更佳 (#24845)。
数据并行与通信优化
- 支持
torchrun启动器 (#24899) 和 Ray placement groups (#25026) - Triton DP/EP 内核优化矩阵乘法效率 (#24588)
- NCCL 对称内存吞吐提升 3–4% (#24532),TP 默认启用 (#25070)
- 分离式服务中新增KV 传输指标 (#22188),便于监控网络开销
MoE 与 EPLB 持续优化
- 共享专家重叠优化 (#24254):减少 All-to-All 通信等待
- NaiveAllToAll 支持 Allgather/ReduceScatter (#23964):提升灵活性
- EPLB 支持 Hunyuan V1 (#23078)、Mixtral (#22842),并推出静态分配策略 (#23745)
- 推理开销进一步降低 (#24573),更适合在线服务
量化能力再上台阶:FP8 与 W4A8 全面落地
量化已成为生产部署的核心手段。vLLM 0.11.0 在低比特推理方面取得实质性突破。
FP8:迈向生产级量化
- 支持每 token 组量化 (#24342),提升数值稳定性
- 启用硬件加速指令 (#24757)实现 float → fp8_e4m3 快速转换
- torch.compile 支持 KV Cache (#22788),提升编译时优化空间
- 分页注意力更新适配 FP8 布局 (#22222)
FP4 与 W4A8:低成本推理利器
- NVFP4 支持稠密模型 (#25609)、Gemma3 (#22771)、Llama 3.1 405B (#25135)
- W4A8 预处理加速 (#23972):缩短权重加载时间
- 压缩张量支持块状 FP8 (#25219):为 MoE 模型提供精细化量化方案
这些能力帮助企业以更低的成本部署千亿参数模型,真正实现“降本增效”。
开发者体验全面提升
API 和工具链的易用性直接影响落地效率。vLLM 在这方面也做了诸多改进。
OpenAI 兼容接口增强
- 支持所有 token 的提示 logprobs (#24956)
logprobs=-1表示返回整个词表概率分布 (#25031)- 流式响应支持推理事件通知 (#24938),如 reasoning part added/done
- 当引擎宕机时
/health返回 503 (#24897),便于运维监控 - Responses API 支持 MCP 工具调用 (#24628, #24985)
CLI 与配置优化
--enable-logging控制日志输出级别 (#25610)--help输出优化 (#24903),提升用户体验- 引入
max_recent_requests替代 interval (#24229) - 环境变量校验强制取值合法 (#24761),防止误配
- 支持
VLLM_NVTX_SCOPES_FOR_PROFILING=1启用 NVTX 注解 (#25501)
指标系统现代化
- V1 TPOT 直方图 (#24015):展示每个请求的 tokens per second 分布
- 隐藏弃用的 gpu_* 指标 (#24245):避免误导性监控
- KV 缓存显示单位改为 GiB (#25204, #25479):符合工程习惯
- 移除误导性量化警告 (#25012),信息更清晰
安全与依赖更新
安全性始终是生产部署的前提:
- 修复安全漏洞 GHSA-wr9h-g72x-mwhm
- 升级关键依赖:
- PyTorch 2.8 for CPU (#25652)
- FlashInfer 0.3.1 (#24470)
- CUDA 13 (#24599)
- ROCm 7.0 (#25178)
- 构建要求:全局强制使用 C++17 (#24823)
- TPU:弃用xm.mark_step,改用torch_xla.sync(#25254)
企业级推理镜像推荐:开箱即用的高性能部署方案
基于上述优化,我们推荐使用官方vLLM 推理加速镜像快速构建生产级服务:
企业级大模型高性能推理解决方案
基于 vLLM 深度优化,内置 PagedAttention 与连续批处理机制,支持主流模型(LLaMA、Qwen、ChatGLM 等)极致推理性能。相比传统方案吞吐提升5–10 倍,完美适配模力方舟等平台。企业级大模型推理加速引擎
支持 GPTQ、AWQ 等量化格式,内置 OpenAI 兼容 API,无缝对接现有应用生态。预配置主流模型加载器,适用于云原生、Kubernetes、Docker 等多种部署环境。
两类镜像均已同步 v0.11.0 版本,开箱即用。
写在最后
vLLM 0.11.0 是一次真正意义上的战略升级:
- 架构层面,彻底告别 V0,确立 V1 为唯一标准;
- 性能层面,通过 CUDA Graph、KV 卸载、FlashInfer 等技术实现吞吐与延迟双重优化;
- 功能层面,多模态、量化、分布式、监控等能力全面成熟;
- 生态层面,覆盖 NVIDIA、AMD、Intel、ARM、RISC-V 等多元硬件平台。
无论你是开发 AIGC 应用、构建智能 Agent,还是搭建私有化大模型服务平台,vLLM 0.11.0 都已成为值得信赖的高性能推理基石。
📌立即升级,体验新一代 vLLM 的强大能力!
🔗 发布主页:https://github.com/vllm-project/vllm/releases/tag/v0.11.0
📦 Docker 镜像:vllm/vllm-runtime:0.11.0
📘 文档地址:https://docs.vllm.ai
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考