news 2026/5/10 2:09:30

CANN发布管理9.0.0-beta.1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN发布管理9.0.0-beta.1

CANN 9.0.0-beta.1

【免费下载链接】release-managementCANN版本发布管理仓库项目地址: https://gitcode.com/cann/release-management

版本下载地址

https://www.hiascend.com/cann/download

版本配套

1、CANN与Ascend HDK版本配套关系|CANN版本 | 配套Ascend HDK版本| |--|--| | CANN 9.0.0-beta.1| Ascend HDK 25.5.1|

2、 CANN组合包版本配套关系 |ops版本 |配套toolkit版本 |
|--|--| | ascend-cann-ops 9.0.0-beta.1| ascend-cann-toolkit 9.0.0-beta.1 |

3、 CANN独立升级子包版本配套关系| CANN子包版本 | 版本源码标签 | 配套CANN版本 | | ------------------------------------------------------------ | ------------------------------------------------------------ | ----------------- | | cann-ops-math 9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-ops-nn 9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-ops-cv 9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-ops-transformer 9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-hccl 9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-hixl 9.0.0-beta.1 | CANN 9.0.0-beta.1 |

4、CANN开源子包版本配套关系| CANN子包版本 | 版本源码标签 | 配套CANN版本 | | ---------------------------------- | ------------------------------------------------------------ | ----------------- | | cann-opbase 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-oam-tools 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-asc-tools 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-asc-devkit 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-pto-isa 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-ge-compiler 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-ge-executor 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-graph-autofusion 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-metadef 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-dflow-executor 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-hcomm 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 | | cann-npu-runtime 9.0.0-beta.1 | v9.0.0-beta.1 | CANN 9.0.0-beta.1 |

子包独立升级的具体操作请参考子包独立升级。

新增特性

算子库

ops-nn库
  • 低bit类算子和融合算子支持更多数据类型:fp8/mxfp8/hifp8/mxfp4等,并支持pertensor/perchannel/pertoken/pergroup/perblock等不同量化和组合方式:
    • 全量化融合算子:quant_batch_matmul_v4。
    • 伪量化融合算子:weight_quant_batch_matmul_v2。
    • mx动态量化算子:dynamic_mx_quant。
    • 非mx动态量化算子:dynamic_quant_v2。
    • mx动态量化算子:grouped_dynamic_mx_quant。
    • 非mx动态量化算子:grouped_dynamic_block_quant。
  • 提供matmul、卷积、norm和hash类算子编程的优秀实践:
    • MatMul算子VCV性能优化实践与效果分析。
    • MatMul算子性能优化实践与效果分析。
  • 新增<<<>>>的算子开发样例(!620)。
  • 支持编译生成静态库,发布的nn独立组件包携带静态库(!391)。
ops-transformer库
  • transformer相关算子在Atlas A3系列产品上能力完善:

    • MC2 dispatch和combine算子支撑性能维测能力、类deepep接口和扩展泛化能力:moe_distribute_dispatch。
    • SparseFlashAttentionGrad算子能力强化,支持确定性计算等:sparse_flash_attention_grad。
    • SparseFlashAttentionGrad算子能力强化,支持确定性计算等:incre_flash_attention。
    • MoeInitRoutingV2等算子能力强化,支持int4和smoothquant等:moe_init_routing_v2。
  • transformer相关算子在Atlas A2系列产品上能力完善:

    • 新增AllToAllMatmul和MatmulAllToAll算子。
    • 支持QuantMatmulAllToAll算子A8W8。
    • 支持AllToAllQuantMatmul A16W8和A16W4。
ops-math库
  • 算子工程支持kernel并行编译(!779)。
  • 算子工程日志优化(#192)。
  • 算子CI支持算子增量UT与冒烟(!774 !817)。
  • 算子构建脚本支持导出预编译文件,降低算子问题定位难度(#536)。
  • 支持Docker部署(!547)。

通信库

  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品支持alltoallv算子aicpu展开模式通信task缓存功能(#269)。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品支持单机多容器部署。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品支持通信域粒度的超平面QoS配置(#283)。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品支持aicpu&host 自定义算子场景的profiling信息上报能力,提升自定义通信算子的维测能力(#102 #374)。
  • 集合通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品AICPU自定义算子场景支持host和aicpu间的kernel同步(#90)。
  • 单边通信: Atlas A3 训练系列产品/Atlas A3 推理系列产品超节点内HCCS场景下支持D2rH直传能力(本端device内存与远端host内存通信能力)(#33)。

图引擎

  • ES构图提供多种场景的sample(!72 、!123)。
  • ES构图Readable Dump支持子图的友好展示。
  • 自定义pass改图能力增强,新增原图优化之后改图的能力。
  • 图模式多流场景nopadding连续内存支持内存复用。

算子编程

  • 迁移高阶API样例ascendc-api-adv仓,并使用<<<>>>调用方式。
  • 联合毕昇编译器,优化融合编译性能。

运行时

  • 提供包版本号查询接口,根据包名查询返回数值版本号和字符串版本号,接口如下:

    • aclError aclsysGetVersionStr(char *pkgName, char * versionStr)
    • aclError aclsysGetVersionNum(char *pkgName,int32_t * versionNum)
  • 支持查询指定流(Stream)的优先级,接口如下:

    • aclError aclrtStreamGetPriority(aclrtStream stream, uint32_t *priority)
  • 支持查询创建Stream时设置的flag标志,接口如下:

    • aclError aclrtStreamGetFlags(aclrtStream stream, uint32_t *flags)
  • 支持获取Device的唯一标识UUID(Universally Unique Identifier),接口如下:

    • aclError aclrtDeviceGetUuid (int32_t deviceId, aclrtUuid *uuid)
  • 支持获取待查询地址所属内存块的起始地址以及内存块大小,接口如下:

    • aclError aclrtMemGetAddressRange(void *ptr, void **pbase, size_t *psize)
  • 支持设置和查询强一致性计算的参数,相关接口如下:

    • aclError aclrtSetSysParamOpt(aclSysParamOpt opt, int64_t value)
    • aclError aclrtGetSysParamOpt(aclSysParamOpt opt, int64_t *value)
    • aclError aclrtCtxSetSysParamOpt(aclSysParamOpt opt, int64_t value)
    • aclError aclrtCtxGetSysParamOpt(aclSysParamOpt opt, int64_t *value)

开发与维测工具

性能调优工具
  • 多业务进程采集:msprof动态profiler支持一次性配置多个进程pid,支撑客户同时采集多个业务进程数据(#45)。
  • 支持开启对称内存:新增-m 参数,支持开启对称内存(#44)。
AMCT模型压缩工具
  • 支持HIF8/MXFPx等低比特数据格式的量化能力:新增HIF8/FP8/FP4/MXFP8/MXFP4量化数据类型,新增HIF8匹配的OFMR量化算法(#20)。

删除和废弃特性

不涉及。

已知问题

无。

已修复问题

  • 集合通信:优化快恢时的状态迁移及超时机制,解决快恢失败的问题。
  • 集合通信:修复了大规模集群的通信域初始化失败问题(在rootinfo集群信息收集阶段)。

漏洞修补列表

版本开源及第三方软件漏洞修复情况详见漏洞修补列表。

子包独立升级

使用场景

子包独立升级提供了灵活的按需升级功能。

使用场景举例:某用户已安装了a.b.c版本的组合包Ascend-cann-toolkit和Ascend-cann-ops,由于业务需要,要求将单边通信库能力更新至x.y.z版本,此时,可通过独立升级子包cann-hixl来实现。其中a.b.c和x.y.z请替换为实际版本号。

操作步骤

升级子包前,请确保已安装配套版本的组合包Ascend-cann-toolkit和Ascend-cann-ops。如未安装,请参考《CANN软件安装指南》进行安装。

子包的升级路径应与组合包的安装路径保持一致。所有子包的升级操作相同,以下以升级 cann-hixl_x.y.z_linux-aarch64.run 为例进行说明。

升级场景一:

组合包Ascend-cann-toolkit和Ascend-cann-ops安装在默认路径下(即安装时未使用“--install-path”参数)

chmod +x cann-hixl_x.y.z_linux-aarch64.run ./cann-hixl_x.y.z_linux-aarch64.run --upgrade

升级场景二:

组合包Ascend-cann-toolkit和Ascend-cann-ops安装在指定路径“/home/custom_path”(即安装时指定“--install-path=/home/custom_path”)

chmod +x cann-hixl_x.y.z_linux-aarch64.run ./cann-hixl_x.y.z_linux-aarch64.run --upgrade --install-path=/home/custom_path

【免费下载链接】release-managementCANN版本发布管理仓库项目地址: https://gitcode.com/cann/release-management

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 2:09:30

3步搭建个人游戏串流服务器:如何实现跨设备游戏自由?

3步搭建个人游戏串流服务器&#xff1a;如何实现跨设备游戏自由&#xff1f; 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾想过&#xff0c;用轻薄笔记本流畅运行最新的…

作者头像 李华
网站建设 2026/5/10 2:08:22

运算放大器选型与自动化设计工具实战指南

1. 运算放大器设计挑战与自动化工具价值运算放大器作为模拟电路设计的基石元件&#xff0c;其选型过程往往令工程师倍感压力。以TI产品线为例&#xff0c;面对1300余款不同规格的运算放大器&#xff0c;传统设计流程需要工程师手动比对数十项参数指标。我曾参与过一个工业压力传…

作者头像 李华
网站建设 2026/5/10 2:07:00

SQL 第六篇:索引入门(为什么你的查询越来越慢)

一、前言前面五篇&#xff0c;我们已经完成了&#xff1a;CRUD 建表 表关系 JOIN 项目分层到这里&#xff0c;其实你已经能做一个基础后端项目了。但新的问题开始出现&#xff1a;数据越来越多了最开始&#xff1a;user 表 10条数据查询很快。后来&#xff1a;10万条 100万条 1…

作者头像 李华
网站建设 2026/5/10 2:03:42

ARM与Thumb指令集架构解析及优化实践

1. ARM与Thumb指令集架构解析在嵌入式系统开发领域&#xff0c;ARM处理器因其高效的功耗比和灵活的指令集架构而占据主导地位。ARM架构最显著的特点之一就是支持两种指令集状态&#xff1a;32位的ARM指令集和16位的Thumb指令集。这种双指令集设计在保持性能的同时&#xff0c;显…

作者头像 李华
网站建设 2026/5/10 1:58:32

基于多模态大模型的电影智能问答系统:从原理到实践

1. 项目概述&#xff1a;当电影遇上AI&#xff0c;我们能聊些什么&#xff1f;最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“MovieChat”。光看名字&#xff0c;你大概能猜到&#xff0c;这玩意儿跟电影和聊天有关。没错&#xff0c;它本质上是一个能让你和电影“对话…

作者头像 李华