news 2026/5/9 13:02:11

CANN AscendC AlltoAll集合通信API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN AscendC AlltoAll集合通信API

AlltoAll

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品

是否支持

Ascend 950PR/Ascend 950DT

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

功能说明

集合通信AlltoAll的任务下发接口,返回该任务的标识handleId给用户。AlltoAll的功能为:每张卡向通信域内所有卡发送相同数据量的数据,并从所有卡接收相同数据量的数据。结合原型中的参数,描述接口功能,具体为,第j张卡接收到来自第i张卡的sendBuf中第j块数据,并将该数据存放到本卡recvBuf中第i块的位置。

函数原型

template <bool commit = false> __aicore__ inline HcclHandle AlltoAll(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t dataCount, HcclDataType dataType, uint64_t strideCount = 0, uint8_t repeat = 1)

参数说明

表 1模板参数说明

参数名

输入/输出

描述

commit

输入

bool类型。参数取值如下:

  • true:在调用Prepare接口时,Commit同步通知服务端可以执行该通信任务。
  • false:在调用Prepare接口时,不通知服务端执行该通信任务。

表 2接口参数说明

参数名

输入/输出

描述

sendBuf

输入

源数据buffer地址。

recvBuf

输出

目的数据buffer地址,集合通信结果输出到此buffer中。

dataCount

输入

本卡向通信域内其它每张卡收发的数据量,单位为sizeof(dataType)。

例如,通信域内共4张卡,每张卡的sendBuf中均有4个fp16的数据,那么dataCount=1。

dataType

输入

AlltoAll操作的数据类型,目前支持HcclDataType包含的全部数据类型,HcclDataType详细可参考表1。

strideCount

输入

多轮切分场景下,一次AlltoAll任务中,每张卡内参与通信的数据块间的间隔。默认值为0,表示数据块内存连续。

  • strideCount=0,每张卡内参与通信的数据块内存连续。卡rank_j收到来自卡rank_i的sendBuf中第j块数据,且数据块间的偏移数据量为j*dataCount,并将该数据存放于本卡recvBuf中第i块的位置,且偏移数据量为i*dataCount。
  • strideCount>0,每张卡内参与通信的相邻数据块的起始地址偏移数据量为strideCount。卡rank_j收到来自卡rank_i的sendBuf中第j块数据,且数据块间的偏移数据量为j*strideCount,并将该数据存放于本卡recvBuf中第i块的位置,且偏移数据量为i*strideCount。

注意:上述的偏移数据量为数据个数,单位为sizeof(dataType)。

repeat

输入

一次下发的AlltoAll通信任务个数。repeat取值≥1,默认值为1。当repeat>1时,每轮AlltoAll任务的sendBuf和recvBuf地址由服务端更新,每一轮任务i的更新公式如下:

sendBuf[i] = sendBuf + dataCount * sizeof(datatype) * i, i∈[0, repeat)

recvBuf[i] = recvBuf + dataCount * sizeof(datatype) * i, i∈[0, repeat)

注意:当设置repeat>1时,须与strideCount参数配合使用,规划通信数据地址。

返回值说明

返回该任务的标识handleId,handleId大于等于0。调用失败时,返回 -1。

约束说明

  • 调用本接口前确保已调用过InitV2和SetCcTilingV2接口。
  • 若HCCL对象的config模板参数未指定下发通信任务的核,该接口只能在AIC核或者AIV核两者之一上调用。若HCCL对象的config模板参数中指定了下发通信任务的核,则该接口可以在AIC核和AIV核上同时调用,接口内部会根据指定的核的类型,只在AIC核、AIV核二者之一下发该通信任务。
  • 对于Ascend 950PR/Ascend 950DT,一个通信域内,所有Prepare接口的总调用次数不能超过63。
  • 对于Atlas A2 训练系列产品/Atlas A2 推理系列产品,一个通信域内,所有Prepare接口的总调用次数不能超过63。
  • 对于Atlas A3 训练系列产品/Atlas A3 推理系列产品,一个通信域内,所有Prepare接口和InterHcclGroupSync接口的总调用次数不能超过63。
  • 对于Atlas A3 训练系列产品/Atlas A3 推理系列产品,一个通信域内,最大支持128卡通信。
  • 对于Ascend 950PR/Ascend 950DT,通信服务端为CCU时,单次最大通信数据量不能超过256M。

调用示例

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 13:01:04

基于深度学习的淋巴瘤病理诊断AI模型构建实战

1. 项目概述与核心价值最近在病理诊断领域&#xff0c;一个名为“LymphoML”的项目引起了我的注意。这本质上是一个利用人工智能&#xff0c;特别是深度学习技术&#xff0c;通过分析细胞形态学特征来辅助诊断淋巴瘤的模型。作为一名在医疗影像和AI交叉领域摸爬滚打了十多年的从…

作者头像 李华
网站建设 2026/5/9 13:00:00

CANN竞赛Erf算子赛题

一、赛题背景 【免费下载链接】cann-competitions 本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。 项目地址: https://gitcode.com/cann/cann-competitions 高斯误差函数 (erf) 是数学和统计学中的基本函数&#xff0c;广泛应…

作者头像 李华
网站建设 2026/5/9 12:59:24

CANN/XLA-NPU:昇腾NPU的XLA后端

XLA-NPU 【免费下载链接】xla-npu XLA-NPU 是一个面向华为昇腾NPU硬件的 XLA后端实现。本项目通过接入OpenXLA/XLA开源项目&#xff0c;将XLA开源生态与华为 CANN软件栈集成&#xff0c;对接JAX框架。JAX框架运行时可以直接加载XLA-NPU&#xff0c;使得基于JAX框架开发的模型可…

作者头像 李华
网站建设 2026/5/9 12:58:51

CANN/pto-isa内核开发者规则与限制

这个文档列出了一些kernel开发者使用auto模式的一些规则和限制。 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance…

作者头像 李华