基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A2单机混部部署实践-平芜编程栈

作者：昇腾实战派
知识地图：https://blog.csdn.net/Lumos_Lovegood/article/details/161601003

背景概述

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A2上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case。

基本信息

软件版本	设备信息	组网形态	总卡数	数据格式
0.18.0	NPU：Atlas 800I A2-280T, HBM 64G CPU：Kunpeng 920（48核-2600MHz）内存：24根32G3200MHZ OS：Ubuntu 22.04 LTS	Atlas 800I A2单机	8	W4A8C16

服务化配置

低时延/高吞吐

exportASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7exportPYTORCH_NPU_ALLOC_CONF="expandable_segments:True"exportHCCL_IF_IP=xxxexportHCCL_OP_EXPANSION_MODE="AIV"exportHCCL_BUFFSIZE=1024exportOMP_NUM_THREADS=1exportLD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOADexportTASK_QUEUE_ENABLE=1exportVLLM_ASCEND_ENABLE_FUSED_MC2=0exportVLLM_ASCEND_ENABLE_FLASHCOMM1=1vllm serve /home/Qwen3.5-397B-A17B-w4a8-mtp\--served-model-name"qwen35-397b-zz"\--hostxxx\--port10888\--data-parallel-size1\--tensor-parallel-size8\--max-model-len133120\--max-num-batched-tokens16384\--max-num-seqs128\--gpu-memory-utilization0.9\--enable-expert-parallel\--compilation-config'{"cudagraph_capture_sizes":[1,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,108,112,128,160,172,196,200,212,232,256,260,288,320,360,400], "cudagraph_mode":"FULL_DECODE_ONLY"}'\--speculative_config'{"method": "qwen3_5_mtp", "num_speculative_tokens": 3, "enforce_eager": true}'\--trust-remote-code\--no-enable-prefix-caching\--async-scheduling\--allowed-local-media-path /\--quantizationascend\--mm-processor-cache-gb0\--additional-config'{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true}'

典型测试用例

平均输入	平均输出	并行策略	上下文长度	总请求数	最大并发数
2048	2048	MLA：DP1+TP8	262144	288	72
2048	2048	MLA：DP1+TP8	262144	56	14
3500	1500	MLA：DP1+TP8	262144	256	64
3500	1500	MLA：DP1+TP8	262144	48	12
16384	1024	MLA：DP1+TP8	262144	80	20
16384	1024	MLA：DP1+TP8	262144	20	5
32768	512	MLA：DP1+TP8	262144	32	8
32768	512	MLA：DP1+TP8	262144	12	3
65536	1024	MLA：DP1+TP8	262144	28	7
65536	1024	MLA：DP1+TP8	262144	8	2
131072	1024	MLA：DP1+TP8	262144	16	4
131072	1024	MLA：DP1+TP8	262144	4	1

测试命令

参考aisbench官方测试指南。

aisbench测试命令

vllm-ascend社区官网

特别声明

以上配置均未开启Prefix Cache，若实际生产环境需要使用该特性，参考vLLM-Ascend社区参数指南开启–enable-prefix-caching

大气层Atmosphere完整指南：Switch自定义固件的终极配置教程

大气层Atmosphere完整指南：Switch自定义固件的终极配置教程【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 大气层（Atmosphere）是Switch平台上最成熟、最…

李华

告别AI画图翻车！零一AI设计智能体，依托GPT-Image-2重构视觉生产力

做设计、做运营、做内容的人，大概率都踩过AI生图的坑：提示词写满百字，成品构图错乱；图片内嵌文字乱码、笔画残缺；改图反复返工，AI看不懂修改逻辑；生成画面氛围感够了，却没法落地商用…

李华

KH Coder：13种语言文本分析的强大开源工具

KH Coder：13种语言文本分析的强大开源工具【免费下载链接】khcoder KH Coder: for Quantitative Content Analysis or Text Mining 项目地址: https://gitcode.com/gh_mirrors/kh/khcoder KH Coder是一款功能强大的开源文本挖掘软件，专门为定量内…