vLLM 批调度评估：吞吐提升不等于每个请求都更快-平芜编程栈

vLLM 批调度评估：吞吐提升不等于每个请求都更快

vLLM 通过 PagedAttention 和连续批处理提高大模型推理吞吐，是当前常见部署选择。但评估 vLLM 时，不能只看 tokens/s。批调度会改变请求排队、首 token 延迟和长短请求之间的资源竞争。吞吐提升，可能伴随部分请求延迟变差。

生产推理评估要同时看吞吐、TTFT、TPOT、显存和不同长度请求的公平性。

一、先拆开延迟指标

flowchart TD A[Request Arrives] --> B[Queue Wait] B --> C[Prefill] C --> D[First Token] D --> E[Decode Tokens] E --> F[Finish]

端到端延迟可以拆成排队时间、prefill 时间、首 token 延迟和后续 token 生成时间。不同优化影响的阶段不同。

二、构造混合负载

只用固定长度 prompt 压测意义有限。真实业务里有短问答、长文档总结、多轮对话，输入输出长度差异很大。

workload: short_qa: prompt_tokens: 128 output_tokens: 128 ratio: 0.5 long_summary: prompt_tokens: 4096 output_tokens: 512 ratio: 0.3 coding: prompt_tokens: 2048 output_tokens: 1024 ratio: 0.2

混合负载能暴露长请求是否挤压短请求。只看平均延迟，会掩盖尾部问题。

请求到达模式也要设定清楚。固定并发压测和泊松到达压测得到的结论不同。前者适合观察系统饱和点，后者更接近真实线上流量。评测报告应写明到达率、并发上限和超时阈值。

三、指标要按请求类型分组

metrics: throughput_tokens_per_second ttft_p50_p95_p99 tpot_p50_p95 e2e_latency_p95_by_workload gpu_memory_peak request_timeout_rate

如果整体 tokens/s 提升 30%，但短问答 TTFT p95 从 500ms 变成 3s，某些产品场景可能无法接受。

四、调参要记录版本和上下文

vLLM 的 batch size、max model len、GPU 类型、并发、量化方式都会影响结果。

{ "engine": "vllm", "version": "0.x", "gpu": "A100-80G", "max_num_seqs": 128, "max_model_len": 8192, "dtype": "float16" }

没有这些上下文，压测结果很难复现。推理性能报告必须像实验记录，而不是一句“速度提升明显”。

五、总结

vLLM 批调度评估不能只看吞吐。要拆分排队、prefill、首 token、decode 阶段，使用混合负载，并按请求类型统计 TTFT、TPOT、尾延迟和超时率。

吞吐提升是好事，但生产系统还要关心每类用户请求是否变快。公平、稳定、可复现的压测，才有决策价值。

如果某个调度参数提高了总吞吐，却让短请求长时间排队，它不一定适合交互式产品。推理服务的优化目标必须和业务体验一致。

因此压测报告应同时给出总体指标和分组指标，避免平均值掩盖尾部用户体验。

CANN/cannbot-skills Kernel模式字段提取规则

Kernel 模式字段提取规则【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills S5 JSON → CSV 列映射 S5 JSON 字段CSV 列…

李华

CANN/Qwen3-Next算子扩展

NpuOpsTransformerExt 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer 简介 | Overview 该目录包含用于 Qwen3-Next 推…

李华

SQLMap深度解析：从SQL注入原理到实战渗透测试技巧

1. 项目概述：为什么SQLMap依然是渗透测试的“瑞士军刀”在网络安全领域，SQL注入漏洞就像一扇古老却从未被完全锁死的后门，而SQLMap则是打开这扇门最趁手、最全面的钥匙。从业十多年，我见过无数安全工具潮起潮落，但SQLM…

李华

医用推拉自锁连接器的核心价值与设计要点

1. 医用推拉自锁连接器的核心价值解析在医疗设备领域，连接器的可靠性往往决定着整个系统的稳定性。我曾参与过多个医疗监护设备的研发项目，亲眼见证过因连接器松动导致的数据中断事件。最令人印象深刻的是某次ICU监护仪在夜间突然失去信号，医…

李华

Mongood性能优化技巧：强制索引查询功能详解

Mongood性能优化技巧：强制索引查询功能详解【免费下载链接】mongood A MongoDB GUI with Fluent Design 项目地址: https://gitcode.com/gh_mirrors/mo/mongood 作为一名MongoDB开发者，你是否曾为查询性能问题而烦恼？Mongood作为一款…

李华

E-Viewer vs 网页版：为什么这款UWP客户端是e-hentai爱好者的首选

E-Viewer vs 网页版：为什么这款UWP客户端是e-hentai爱好者的首选如果你是e-hentai.org的常客，一定体验过在浏览器中频繁切换标签页、加载缓慢、操作不便的烦恼。今天，我将为你介绍一款专为Windows用户打造的终极解决方案——E-Viewer&#…

李华