news 2026/5/9 12:47:31

CANN/AMCT Quantile量化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/AMCT Quantile量化

AMCT大模型Quantile分位量化

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

1 量化前提

1.1 安装依赖

本sample依赖包可参考requirements.txt

需要注意的是torch_npu包版本需要与Python、torch包版本相匹配,需要安装CANN包

1.2 模型和数据集准备

本sample以Llama2-7b,qwen2-7b,qwen3-8b模型,pileval数据,wikitext2数据集为示例, 数据为在线加载,模型需要用户自己下载并在执行脚本时指定模型路径。

1.3 简易量化配置

本sample中使用的量化配置已经内置在工具中,可以通过下述方式获取并使用:

HIF8全量化配置:from amct_pytorch import HIFP8_QUANTILE_CFG

cfg = { 'batch_num': 1, 'quant_cfg': { 'weights': { 'type': 'hifloat8', 'symmetric': True, 'strategy': 'tensor', }, 'inputs': { 'type': 'hifloat8', 'symmetric': True, 'strategy': 'tensor', }, }, 'algorithm': {'quantile'}, 'skip_layers': {'lm_head'} }

如果需要修改详细配置,请参考资料构造需要的量化配置dict。

Quantile算法支持仅权重量化和全量化,支持的量化类型以及量化配置:

字段类型说明取值范围注意事项
batch_numuint32量化使用的batch数量1/
skip_layersstr跳过量化的层/跳过量化层支持模糊匹配,当配置字符串为层名字串,或与层名一致时,跳过该层量化,不生成量化配置。字符串必须包含数字或字母
weights.typestr量化后权重类型'hifloat8'Quantile算法主要针对HIF8数据类型优化
weights.symmetricbool对称量化True/FalseHIF8数据类型支持对称量化和非对称量化
weights.strategystr量化粒度'tensor'/'channel'支持per-tensor和per-channel
inputs.typestr量化后激活类型'hifloat8'全量化场景需要配置
inputs.symmetricbool对称量化True/FalseHIF8数据类型支持对称量化和非对称量化
inputs.strategystr量化粒度'tensor'/'token'支持per-tensor和per-token(静态/动态)
inputs.dynamicbool量化模式True/Falseinputs.strategy配置了per-token情况下支持静态和动态
algorithmdict量化使用的算法配置{'quantile'}/

2 量化示例

2.1 使用接口方式调用

step 1.请在当前目录执行如下命令运行示例程序,用户需根据实际情况修改示例程序中的模型和数据集路径:

使用内置配置进行HIF8全量化:

python3 src/run_llama2_samples.py --model_path=/data/Llama2_7b_hf/
python3 src/run_qwen_samples.py --model_path=/data/Qwen2-7b/
python3 src/run_qwen_samples.py --model_path=/data/Qwen3-8b/

若出现如下信息,则说明量化成功:

Test time taken: 1.0 min 59.24865388870239 s Score: 5.477707

其中Score为量化模型PPL,具体数值参考下表:

模型校准集数据集量化前PPL量化后PPL
LLAMA2-7Bpilevalwikitext25.4725.507
QWEN2-7Bpilevalwikitext27.1377.169
QWEN3-8Bpilevalwikitext29.7159.760

推理成功后,在当前目录会生成量化日志文件./amct_log/amct_pytorch.log

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:44:32

CANN/pypto pow函数API文档

# pypto.pow 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练…

作者头像 李华
网站建设 2026/5/9 12:42:35

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在数字内容爆炸式增长的今天,视频已成为知识传递的主要载…

作者头像 李华
网站建设 2026/5/9 12:42:33

Switch大气层系统深度配置:从零构建你的个性化游戏环境

Switch大气层系统深度配置:从零构建你的个性化游戏环境 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 还在为Switch的官方限制感到束手束脚吗?大气层系统为你打开了…

作者头像 李华
网站建设 2026/5/9 12:42:07

QQ音乐加密格式终极解密指南:qmc-decoder让音乐真正属于你

QQ音乐加密格式终极解密指南:qmc-decoder让音乐真正属于你 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经下载了QQ音乐的歌曲,却发现它们…

作者头像 李华
网站建设 2026/5/9 12:41:00

CANN/pto-isa轴归约与扩展操作

Axis Reduce / Expand 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across …

作者头像 李华
网站建设 2026/5/9 12:39:55

利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型 为学术研究项目选择合适的大语言模型,常常需要在模型能力…

作者头像 李华