昇腾Atlas 800I A3部署deepseek-v4流程-平芜编程栈

1、创建docker容器

创建vim docker_run.sh内容如下

镜像：vllm-ascend:v0.13.0rc3-a3

export IMAGE=quay.io/ascend/vllm-ascend:v0.13.0rc3-a3 export NAME=deepseekV4-sj docker run --rm \ --name $NAME \ --net=host \ --shm-size=1g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci8 \ --device /dev/davinci9 \ --device /dev/davinci10 \ --device /dev/davinci11 \ --device /dev/davinci12 \ --device /dev/davinci13 \ --device /dev/davinci14 \ --device /dev/davinci15 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /etc/hccn.conf:/etc/hccn.conf \ -v /mnt/sfs_turbo/.cache:/root/.cache \ -v /data:/data \ -d $IMAGE tail -f /dev/null ~

给文件赋权限

chmod +x docker_run.sh

执行脚本

./docker_run.sh

使用docker ps查看创建的docker容器

使用以下命令进入容器

docker exec -it e9c600eff989 bash

2、下载模型

下载以下模型

https://www.modelscope.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp

安装以下插件

pip install modelscope

下载到当前目录的dir文件夹中

modelscope download --model Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp --local_dir ./dir

注：作者下载路径为：/data/share/models中（路径根据实际情况修改）

3、运行模型

创建运行脚本start.sh

export OMP_PROC_BIND=false export OMP_NUM_THREADS=10 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export ACL_OP_INIT_MODE=1 export ASCEND_A3_ENABLE=1 export USE_MULTI_BLOCK_POOL=1 export HCCL_BUFFSIZE=1024 export VLLM_ASCEND_ENABLE_FUSED_MC2=1 export VLLM_ASCEND_ENABLE_FLASHCOMM1=1 vllm serve /data/share/models/DeepSeek-V4-Flash-w8a8-mtp \ --host 0.0.0.0 \ --max_model_len 152000 \ --max-num-batched-tokens 8192 \ --served-model-name deepseek_v4 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 64 \ --data-parallel-size 2 \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --quantization ascend \ --chat-template /data/share/models/DeepSeek-V4-Flash-w8a8-mtp/chat_template.jinja \ --port 8005 \ --block-size 128 \ --async-scheduling \ --safetensors-load-strategy eager \ --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}'\ --speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}' \ --additional-config '{"enable_cpu_binding": "true","multistream_overlap_shared_expert": false}'

4、调用

使用以下命令调用（ip可根据实际情况修改）

curl http://localhost:8005/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek_v4",
"messages": [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "你好，请介绍一下自己"}
],
"temperature": 0.7,
"max_tokens": 1024
}'

告别命令行：用Python脚本在Linux上玩转PWM，轻松控制风扇和LED

Python脚本化PWM控制：告别命令行，优雅操控硬件每次手动调整风扇转速或LED亮度时，都要重复输入一堆sysfs命令？在树莓派或嵌入式Linux项目中，PWM（脉冲宽度调制）是控制电机、风扇、LED等设备的常见…

李华

STM32 DAC输出波形不稳？从原理到代码，详解数据对齐与参考电压那些坑

STM32 DAC输出波形不稳？从原理到代码，详解数据对齐与参考电压那些坑当你第一次在示波器上看到STM32的DAC输出波形出现毛刺或电压跳变时，可能会感到困惑——明明按照官方例程配置了所有参数，为什么输出质量还是不尽如人意&#xf…

李华

不只是复制粘贴：用Python脚本批量生成OpenFOAM波浪算例的0文件夹初始场

用Python脚本自动化生成OpenFOAM波浪模拟初始场：从理论到实践想象一下，你正在研究不同波浪参数对海上结构物的影响。每次调整波高、波长或流速，都需要手动修改十几个文件中的边界条件参数——这种重复劳动不仅耗时，还容易出错。作…

李华

HMCL启动器跨平台兼容性终极指南：从Windows到Linux的完整解决方案

HMCL启动器跨平台兼容性终极指南：从Windows到Linux的完整解决方案【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL启动器作为一款功能强大的Min…

李华

海外客户开发邮件怎么写，才更像真人而不是机器群发？

一句话答案：海外客户开发邮件要像真人写的，关键不是写得多热情，而是写得足够具体、自然、有上下文。对于 To B 企业来说，更有效的写法通常是围绕客户业务背景、明确切入点、控制篇幅，并保留真实沟通感，而不…

李华

揭秘利用数字证书签名的多段式钓鱼攻击

在传统的网络安全认知中，用户被反复告诫：不要运行未知来源的程序，不要点击没有数字签名的文件。数字签名，这本是软件世界的“身份证”，象征着开发者的身份可信与代码未被篡改。然而，2026年3月微软安全团队披…

李华