news 2026/5/10 7:00:25

CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

DeepSeek-V3 MXFP8/HiF8 低精度预训练优化实践样例

【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train

概述

本样例针对DeepSeek-V3 裁剪模型,基于MindSpeed 框架,在 8 卡 Atlas A5 上完成完成8K序列MXFP8/HiF8 低精度预训练优。MXFP8/HiF8 低精度预训练介绍可参见HiF8精度与性能双优:面向大模型训练的低精度优化实践。

硬件要求

产品型号:Atlas A5 950DT 系列

最少卡数:8 张 A5

构建环境

  1. 手动安装相关依赖。

安装PyTorch

# 下载并安装PyTorch框架 wget https://download.pytorch.org/whl/cpu/torch-2.7.1%2Bcpu-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch-2.7.1+cpu-cp310-cp310-manylinux_2_28_aarch64.whl # 下载并安装torch_npu插件 wget https://gitcode.com/Ascend/pytorch/releases/download/v7.3.0-pytorch2.7.1/torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl #
  1. 源码准备。
# 请根据实际路径进行替换,当前支持A5的商发cann包暂时未发布,发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh # 创建代码目录工程 cd /home mkdir train_code cd train_code # 下载 MindSpeed git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master # checkout commit from MindSpeed master pip3 install -r requirements.txt pip3 install -e . cd .. # 下载 MindSpeed-LLM git clone https://gitcode.com/ascend/MindSpeed-LLM.git # 从github下载 Megatron-LM,请确保网络能访问 git clone https://github.com/NVIDIA/Megatron-LM.git cd Megatron-LM git checkout core_v0.12.1 cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master mkdir logs pip3 install -r requirements.txt # 安装其余依赖库 # 下载 cann-recipes仓对应的脚本 cd ../ git clone https://gitcode.com/cann/cann-recipes-train.git cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_hif8.sh ./MindSpeed-LLM cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_mxfp8.sh ./MindSpeed-LLM

数据集准备

首先创建数据集路径

mkdir -p ./tests/assets/enwiki

下载enwiki 的parquet数据到./tests/assets/enwiki路径下面

可以使用下面的命令下载数据集

cd ./tests/assets/ git clone https://huggingface.co/datasets/lsb/enwiki20230101/tree/main/data cd ../..

数据集转换示例,可以参考修脚本data_convert_deepseek3_pretrain.sh修改原始数据集路径,模型配置文件路径和目标输出路径

cd ./MindSpeed-LLM bash examples/mcore/deepseek3/data_convert_deepseek3_pretrain.sh

模型权重准备

本样例使用的 DeepSeek-V3 模型权重准备方法如下:

# 从魔塔社区下载模型的基础文件,存放至样例的 ./assets/hf/DeepSeek-V3 目录下(不加载权重实验也需要执行这步操作) mkdir -p /data/models/DeepSeek-V3 pip install modelscope # 下载DeepSeek-V3完整模型文件 (但是不包括权重,当前是裁剪模型可以不下载权重) modelscope download --model deepseek-ai/DeepSeek-V3 --local_dir /data/models/DeepSeek-V3

权重转换拉起示例,可以参考MindSpeed-LLM中转换脚本修改原始权重路径,以及保持的路径以及对应的切分裁剪策略

# 转换为mcore权重 bash examples/mcore/deepseek3/ckpt_convert_deepseek3_hf2mcore.sh

pretrain执行

cd /home/train_code/MindSpeed-LLM export GLOO_SOCKET_IFNAME=eth0 export HCCL_HOST_SOCKET_PORT_RANGE=auto # 请根据实际路径进行替换,当前支持A5的商发cann包暂时未发布,发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh export HCCL_TOPO_FILE_PATH=/etc/superpod_1d_noroce.json export HCCL_CONNECT_TIMEOUT=200 export HCCL_EXEC_TIMEOUT=200 # 示例执行 MXPF8 量化训练,2层(1moe,1dense)裁剪模型 bash ./run_pretrain_dsk3_A5_8P_mxfp8.sh # 示例执行 HiF8 量化训练,2层(1moe,1dense)裁剪模型 bash ./run_pretrain_dsk3_A5_8P_hif8.sh

【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 6:58:25

基于Stable Diffusion与AnimateDiff的文本到动画生成实战指南

1. 项目概述:从文本到动画的生成革命最近在AI生成内容领域,一个名为“smartcraze/promt-to-animation”的项目引起了我的注意。简单来说,这是一个旨在将一段简单的文本描述(Prompt)直接转化为一段连贯动画视频的工具或…

作者头像 李华
网站建设 2026/5/10 6:58:20

Go语言OpenAI Token管理库opaitokens:自动化凭证获取与多源集成

1. 项目概述与核心价值如果你正在用Go语言开发需要接入OpenAI API的应用,那么管理访问凭证(Token)绝对是一个绕不开的“脏活累活”。无论是处理官方账号的登录、刷新,还是对接一些第三方代理服务,手动去处理这些HTTP请…

作者头像 李华
网站建设 2026/5/10 6:56:52

Kitty CLI工具集:基于场景与剧本的终端自动化实践

1. 项目概述:一个面向开发者的现代化终端工具集如果你和我一样,每天的工作都离不开终端,那你一定对“效率”这个词有切肤之痛。从SSH连接到服务器,到管理本地多个项目环境,再到执行复杂的命令行操作,一个趁…

作者头像 李华
网站建设 2026/5/10 6:53:02

电网转换器交互稳定性分析与VFDC控制策略

1. 电网形成与电网跟随转换器交互稳定性问题剖析在可再生能源高比例接入的现代电力系统中,电网形成转换器(GFMC)与电网跟随转换器(GFLC)的协同运行已成为典型场景。GFLC作为传统的主力电源接口,其相位锁定环(PLL)的动态特性直接决定了系统的同步稳定性。…

作者头像 李华
网站建设 2026/5/10 6:51:05

cann/cann-bench CrossEntropyLoss算子API描述

CrossEntropyLoss 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平…

作者头像 李华
网站建设 2026/5/10 6:50:41

量子门脉冲校准技术原理与实践指南

1. 量子门脉冲校准基础原理量子计算中的脉冲校准技术,本质上是将抽象的量子门操作转化为精确的微波脉冲参数的过程。对于超导量子比特系统,我们通常使用微波脉冲来驱动量子态在布洛赫球面上的演化。以X门(即π脉冲)为例&#xff0…

作者头像 李华