Qwen3.5-9B PD 分离 Benchmark 汇总
测试环境:2 × 8×H100 (H100-003 Prefill, H100-004 Decode),TP=1,Mooncake RDMA
1. 单条请求 — 不同 Prompt 长度
| Prompt 长度 | 实际 tokens | TTFT | TPOT | 吞吐 | 总耗时 |
|---|---|---|---|---|---|
| 短 (~25 tok) | 16 | 49.1 ms | 6.4 ms | 153.5 tok/s | 3.34 s |
| 中 (~500 tok) | 850 | 66.9 ms | 6.4 ms | 152.3 tok/s | 3.36 s |
| 长 (~2.5k tok) | 6,330 | 80.1 ms | 6.5 ms | 150.3 tok/s | 3.41 |