Adds(灵活标量位置)
【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit
产品支持情况
功能说明
提供灵活标量位置的接口,支持标量在前和标量在后两种场景。其中标量输入支持配置LocalTensor单点元素,计算公式如下,idx表示LocalTensor单点元素的位置系数。
函数原型
tensor前n个数据计算
template <typename T = BinaryDefaultType, bool isSetMask = true, const BinaryConfig& config = DEFAULT_BINARY_CONFIG, typename U, typename S, typename V> __aicore__ inline void Adds(const U& dst, const S& src0, const V& src1, const int32_t& count)tensor高维切分计算
mask逐bit模式
template <typename T = BinaryDefaultType, bool isSetMask = true, const BinaryConfig& config = DEFAULT_BINARY_CONFIG, typename U, typename S, typename V> __aicore__ inline void Adds(const U& dst, const S& src0, const V& src1, uint64_t mask[], const uint8_t repeatTime, const UnaryRepeatParams& repeatParams)mask连续模式
template <typename T = BinaryDefaultType, bool isSetMask = true, const BinaryConfig& config = DEFAULT_BINARY_CONFIG, typename U, typename S, typename V> __aicore__ inline void Adds(const U& dst, const S& src0, const V& src1, uint64_t mask, const uint8_t repeatTime, const UnaryRepeatParams& repeatParams)
参数说明
表 1模板参数说明
表 2参数说明
返回值说明
无
约束说明
调用灵活标量位置接口且源操作数为LocalTensor单点元素的场景,不支持源操作数和目的操作数地址重叠。
操作数地址对齐要求请参见通用地址对齐约束。
针对Ascend 950PR/Ascend 950DT,int8_t/uint8_t/uint64_t/int64_t/complex32/complex64数据类型仅支持tensor前n个数据计算接口。
左操作数及右操作数中,必须有一个为矢量;当前不支持左右操作数同时为标量。
本接口传入LocalTensor单点数据作为标量时,idx参数需要传入编译期已知的常量,传入变量时需要声明为constexpr。
调用示例
更多样例可参考LINK。
tensor高维切分计算样例-mask连续模式
uint64_t mask = 128; // repeatTime = 4, 单次迭代处理128个数,计算512个数需要迭代4次 // dstBlkStride, srcBlkStride = 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock,表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride = 8, 相邻迭代间的地址间隔为8个datablock,表示相邻迭代间数据连续读取和写入 // 标量在后调用示例 AscendC::Adds(dstLocal, src0Local, src1Local[0], mask, 4, { 1, 1, 8, 8 }); // 标量在前调用示例 static constexpr AscendC::BinaryConfig config = { 0 }; AscendC::Adds<BinaryDefaultType, true, config>(dstLocal, src0Local[0], src1Local, mask, 4, { 1, 1, 8, 8 });tensor高维切分计算样例-mask逐bit模式
uint64_t mask[2] = { UINT64_MAX, UINT64_MAX }; // repeatTime = 4, 单次迭代处理128个数,计算512个数需要迭代4次 // dstBlkStride, srcBlkStride = 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock,表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride = 8, 相邻迭代间的地址间隔为8个datablock,表示相邻迭代间数据连续读取和写入 // 标量在后调用示例 AscendC::Adds(dstLocal, src0Local, src1Local[0], mask, 4, {1, 1, 8, 8}); // 标量在前调用示例 static constexpr AscendC::BinaryConfig config = { 0 }; AscendC::Adds<BinaryDefaultType, true, config>(dstLocal, src0Local[0], src1Local, mask, 4, { 1, 1, 8, 8 });tensor前n个数据计算样例
// 标量在后调用示例 AscendC::Adds(dstLocal, src0Local, src1Local[0], 512); // 标量在前调用示例 static constexpr AscendC::BinaryConfig config = { 0 }; AscendC::Adds<BinaryDefaultType, true, config>(dstLocal, src0Local[0], src1Local, 512);
结果示例如下:
// src0Local[0]或src1Local[0]作为标量 输入数据src0Local:[1 2 3 ... 512] 输入数据src1Local:[1 2 3 ... 512] 输出数据dstLocal:[2 3 4 ... 513]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考