news 2026/7/5 6:16:57

基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A2单机混部部署实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A2单机混部部署实践

作者​:昇腾实战派
知识地图​:https://blog.csdn.net/Lumos_Lovegood/article/details/161601003

背景概述

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A2上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。

基本信息

软件版本设备信息组网形态总卡数数据格式
0.18.0NPU:Atlas 800I A2-280T, HBM 64G
CPU:Kunpeng 920(48核-2600MHz)
内存:24根32G3200MHZ
OS:Ubuntu 22.04 LTS
Atlas 800I A2单机8W4A8C16

服务化配置

低时延/高吞吐

exportASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7exportPYTORCH_NPU_ALLOC_CONF="expandable_segments:True"exportHCCL_IF_IP=xxxexportHCCL_OP_EXPANSION_MODE="AIV"exportHCCL_BUFFSIZE=1024exportOMP_NUM_THREADS=1exportLD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOADexportTASK_QUEUE_ENABLE=1exportVLLM_ASCEND_ENABLE_FUSED_MC2=0exportVLLM_ASCEND_ENABLE_FLASHCOMM1=1vllm serve /home/Qwen3.5-397B-A17B-w4a8-mtp\--served-model-name"qwen35-397b-zz"\--hostxxx\--port10888\--data-parallel-size1\--tensor-parallel-size8\--max-model-len133120\--max-num-batched-tokens16384\--max-num-seqs128\--gpu-memory-utilization0.9\--enable-expert-parallel\--compilation-config'{"cudagraph_capture_sizes":[1,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,108,112,128,160,172,196,200,212,232,256,260,288,320,360,400], "cudagraph_mode":"FULL_DECODE_ONLY"}'\--speculative_config'{"method": "qwen3_5_mtp", "num_speculative_tokens": 3, "enforce_eager": true}'\--trust-remote-code\--no-enable-prefix-caching\--async-scheduling\--allowed-local-media-path /\--quantizationascend\--mm-processor-cache-gb0\--additional-config'{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true}'
典型测试用例
平均输入平均输出并行策略上下文长度Prefix Cache命中率总请求数最大并发数请求频率(req/s)
20482048MLA:DP1+TP82621440288720
20482048MLA:DP1+TP8262144056140
35001500MLA:DP1+TP82621440256640
35001500MLA:DP1+TP8262144048120
163841024MLA:DP1+TP8262144080200
163841024MLA:DP1+TP826214402050
32768512MLA:DP1+TP826214403280
32768512MLA:DP1+TP826214401230
655361024MLA:DP1+TP826214402870
655361024MLA:DP1+TP82621440820
1310721024MLA:DP1+TP826214401640
1310721024MLA:DP1+TP82621440410

测试命令

参考aisbench官方测试指南。

aisbench测试命令

vllm-ascend社区官网

特别声明

  1. 以上配置均未开启Prefix Cache,若实际生产环境需要使用该特性,参考vLLM-Ascend社区参数指南开启–enable-prefix-caching
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 6:15:43

大气层Atmosphere完整指南:Switch自定义固件的终极配置教程

大气层Atmosphere完整指南:Switch自定义固件的终极配置教程 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 大气层(Atmosphere)是Switch平台上最成熟、最…

作者头像 李华
网站建设 2026/7/5 6:12:17

KH Coder:13种语言文本分析的强大开源工具

KH Coder:13种语言文本分析的强大开源工具 【免费下载链接】khcoder KH Coder: for Quantitative Content Analysis or Text Mining 项目地址: https://gitcode.com/gh_mirrors/kh/khcoder KH Coder是一款功能强大的开源文本挖掘软件,专门为定量内…

作者头像 李华
网站建设 2026/7/5 6:11:16

终极指南:如何通过开源工具完全掌控Windows Defender安全防护

终极指南:如何通过开源工具完全掌控Windows Defender安全防护 【免费下载链接】defender-control An open-source windows defender manager. Now you can disable windows defender permanently. 项目地址: https://gitcode.com/gh_mirrors/de/defender-control…

作者头像 李华
网站建设 2026/7/5 6:06:43

别被忽悠了!1000-10000元档位电钢琴横向评测,谁是全能战士?

选购电钢琴时,切忌被花哨的噱头忽悠。电钢琴的本质是乐器,核心在于“手感”与“音色”。以下为您梳理选购电钢琴必须关注的核心避坑指南,并基于1000-10000元价位,为您横向评测并推荐十款热门电钢琴(包含三款派德拉机型…

作者头像 李华
网站建设 2026/7/5 6:04:14

佳维视工业级宽温触摸屏在应急消防车载中的应用

应急消防车辆是抢险救援、城市安防、灾害处置的核心移动装备,承担全天候应急出勤任务。车辆作业环境极为严苛,既要应对火场周边高温热浪、雨雪霜冻、昼夜极端温差,还要承受行车颠簸、设备震动、水汽粉尘侵扰,同时车载电气设备密集…

作者头像 李华