news 2026/5/8 17:25:42

昇腾Atlas 800I A3部署deepseek-v4流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
昇腾Atlas 800I A3部署deepseek-v4流程

1、创建docker容器

创建vim docker_run.sh内容如下

镜像:vllm-ascend:v0.13.0rc3-a3

export IMAGE=quay.io/ascend/vllm-ascend:v0.13.0rc3-a3 export NAME=deepseekV4-sj docker run --rm \ --name $NAME \ --net=host \ --shm-size=1g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci8 \ --device /dev/davinci9 \ --device /dev/davinci10 \ --device /dev/davinci11 \ --device /dev/davinci12 \ --device /dev/davinci13 \ --device /dev/davinci14 \ --device /dev/davinci15 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /etc/hccn.conf:/etc/hccn.conf \ -v /mnt/sfs_turbo/.cache:/root/.cache \ -v /data:/data \ -d $IMAGE tail -f /dev/null ~

给文件赋权限

chmod +x docker_run.sh

执行脚本

./docker_run.sh

使用docker ps查看创建的docker容器

使用以下命令进入容器

docker exec -it e9c600eff989 bash

2、下载模型

下载以下模型

https://www.modelscope.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp

安装以下插件

pip install modelscope

下载到当前目录的dir文件夹中

modelscope download --model Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp --local_dir ./dir

注:作者下载路径为:/data/share/models中(路径根据实际情况修改)

3、运行模型

创建运行脚本start.sh

export OMP_PROC_BIND=false export OMP_NUM_THREADS=10 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export ACL_OP_INIT_MODE=1 export ASCEND_A3_ENABLE=1 export USE_MULTI_BLOCK_POOL=1 export HCCL_BUFFSIZE=1024 export VLLM_ASCEND_ENABLE_FUSED_MC2=1 export VLLM_ASCEND_ENABLE_FLASHCOMM1=1 vllm serve /data/share/models/DeepSeek-V4-Flash-w8a8-mtp \ --host 0.0.0.0 \ --max_model_len 152000 \ --max-num-batched-tokens 8192 \ --served-model-name deepseek_v4 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 64 \ --data-parallel-size 2 \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --quantization ascend \ --chat-template /data/share/models/DeepSeek-V4-Flash-w8a8-mtp/chat_template.jinja \ --port 8005 \ --block-size 128 \ --async-scheduling \ --safetensors-load-strategy eager \ --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}'\ --speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}' \ --additional-config '{"enable_cpu_binding": "true","multistream_overlap_shared_expert": false}'

4、调用

使用以下命令调用(ip可根据实际情况修改)

curl http://localhost:8005/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek_v4",
"messages": [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "你好,请介绍一下自己"}
],
"temperature": 0.7,
"max_tokens": 1024
}'

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:25:31

告别命令行:用Python脚本在Linux上玩转PWM,轻松控制风扇和LED

Python脚本化PWM控制:告别命令行,优雅操控硬件 每次手动调整风扇转速或LED亮度时,都要重复输入一堆sysfs命令?在树莓派或嵌入式Linux项目中,PWM(脉冲宽度调制)是控制电机、风扇、LED等设备的常见…

作者头像 李华
网站建设 2026/5/8 17:25:17

不只是复制粘贴:用Python脚本批量生成OpenFOAM波浪算例的0文件夹初始场

用Python脚本自动化生成OpenFOAM波浪模拟初始场:从理论到实践 想象一下,你正在研究不同波浪参数对海上结构物的影响。每次调整波高、波长或流速,都需要手动修改十几个文件中的边界条件参数——这种重复劳动不仅耗时,还容易出错。作…

作者头像 李华
网站建设 2026/5/8 17:24:32

海外客户开发邮件怎么写,才更像真人而不是机器群发?

一句话答案:海外客户开发邮件要像真人写的,关键不是写得多热情,而是写得足够具体、自然、有上下文。对于 To B 企业来说,更有效的写法通常是围绕客户业务背景、明确切入点、控制篇幅,并保留真实沟通感,而不…

作者头像 李华
网站建设 2026/5/8 17:24:09

揭秘利用数字证书签名的多段式钓鱼攻击

在传统的网络安全认知中,用户被反复告诫:不要运行未知来源的程序,不要点击没有数字签名的文件。数字签名,这本是软件世界的“身份证”,象征着开发者的身份可信与代码未被篡改。然而,2026年3月微软安全团队披…

作者头像 李华