news 2026/7/4 8:11:13

vLLM 批调度评估:吞吐提升不等于每个请求都更快

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM 批调度评估:吞吐提升不等于每个请求都更快

vLLM 批调度评估:吞吐提升不等于每个请求都更快

vLLM 通过 PagedAttention 和连续批处理提高大模型推理吞吐,是当前常见部署选择。但评估 vLLM 时,不能只看 tokens/s。批调度会改变请求排队、首 token 延迟和长短请求之间的资源竞争。吞吐提升,可能伴随部分请求延迟变差。

生产推理评估要同时看吞吐、TTFT、TPOT、显存和不同长度请求的公平性。

一、先拆开延迟指标

flowchart TD A[Request Arrives] --> B[Queue Wait] B --> C[Prefill] C --> D[First Token] D --> E[Decode Tokens] E --> F[Finish]

端到端延迟可以拆成排队时间、prefill 时间、首 token 延迟和后续 token 生成时间。不同优化影响的阶段不同。

二、构造混合负载

只用固定长度 prompt 压测意义有限。真实业务里有短问答、长文档总结、多轮对话,输入输出长度差异很大。

workload: short_qa: prompt_tokens: 128 output_tokens: 128 ratio: 0.5 long_summary: prompt_tokens: 4096 output_tokens: 512 ratio: 0.3 coding: prompt_tokens: 2048 output_tokens: 1024 ratio: 0.2

混合负载能暴露长请求是否挤压短请求。只看平均延迟,会掩盖尾部问题。

请求到达模式也要设定清楚。固定并发压测和泊松到达压测得到的结论不同。前者适合观察系统饱和点,后者更接近真实线上流量。评测报告应写明到达率、并发上限和超时阈值。

三、指标要按请求类型分组

metrics: throughput_tokens_per_second ttft_p50_p95_p99 tpot_p50_p95 e2e_latency_p95_by_workload gpu_memory_peak request_timeout_rate

如果整体 tokens/s 提升 30%,但短问答 TTFT p95 从 500ms 变成 3s,某些产品场景可能无法接受。

四、调参要记录版本和上下文

vLLM 的 batch size、max model len、GPU 类型、并发、量化方式都会影响结果。

{ "engine": "vllm", "version": "0.x", "gpu": "A100-80G", "max_num_seqs": 128, "max_model_len": 8192, "dtype": "float16" }

没有这些上下文,压测结果很难复现。推理性能报告必须像实验记录,而不是一句“速度提升明显”。

五、总结

vLLM 批调度评估不能只看吞吐。要拆分排队、prefill、首 token、decode 阶段,使用混合负载,并按请求类型统计 TTFT、TPOT、尾延迟和超时率。

吞吐提升是好事,但生产系统还要关心每类用户请求是否变快。公平、稳定、可复现的压测,才有决策价值。

如果某个调度参数提高了总吞吐,却让短请求长时间排队,它不一定适合交互式产品。推理服务的优化目标必须和业务体验一致。

因此压测报告应同时给出总体指标和分组指标,避免平均值掩盖尾部用户体验。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 8:11:03

CANN/cannbot-skills Kernel模式字段提取规则

Kernel 模式字段提取规则 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills S5 JSON → CSV 列映射 S5 JSON 字段CSV 列…

作者头像 李华
网站建设 2026/7/4 8:07:57

CANN/Qwen3-Next算子扩展

NpuOpsTransformerExt 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 简介 | Overview 该目录包含用于 Qwen3-Next 推…

作者头像 李华
网站建设 2026/7/4 8:07:37

SQLMap深度解析:从SQL注入原理到实战渗透测试技巧

1. 项目概述:为什么SQLMap依然是渗透测试的“瑞士军刀”在网络安全领域,SQL注入漏洞就像一扇古老却从未被完全锁死的后门,而SQLMap则是打开这扇门最趁手、最全面的钥匙。从业十多年,我见过无数安全工具潮起潮落,但SQLM…

作者头像 李华
网站建设 2026/7/4 8:07:16

医用推拉自锁连接器的核心价值与设计要点

1. 医用推拉自锁连接器的核心价值解析在医疗设备领域,连接器的可靠性往往决定着整个系统的稳定性。我曾参与过多个医疗监护设备的研发项目,亲眼见证过因连接器松动导致的数据中断事件。最令人印象深刻的是某次ICU监护仪在夜间突然失去信号,医…

作者头像 李华
网站建设 2026/7/4 8:07:06

Mongood性能优化技巧:强制索引查询功能详解

Mongood性能优化技巧:强制索引查询功能详解 【免费下载链接】mongood A MongoDB GUI with Fluent Design 项目地址: https://gitcode.com/gh_mirrors/mo/mongood 作为一名MongoDB开发者,你是否曾为查询性能问题而烦恼?Mongood作为一款…

作者头像 李华
网站建设 2026/7/4 8:05:31

E-Viewer vs 网页版:为什么这款UWP客户端是e-hentai爱好者的首选

E-Viewer vs 网页版:为什么这款UWP客户端是e-hentai爱好者的首选 如果你是e-hentai.org的常客,一定体验过在浏览器中频繁切换标签页、加载缓慢、操作不便的烦恼。今天,我将为你介绍一款专为Windows用户打造的终极解决方案——E-Viewer&#…

作者头像 李华