CANN/ascend-transformer-boost PagedAttentionOperation C++ Demo-平芜编程栈

加速库PagedAttentionOperation C++ Demo

【免费下载链接】ascend-transformer-boost本项目是CANN提供的是一款高效、可靠的Transformer加速库，基于华为Ascend AI处理器，提供Transformer定制化场景的高性能融合算子。项目地址: https://gitcode.com/cann/ascend-transformer-boost

介绍

该目录下为加速库PagedAttentionOperation C++调用示例。

使用说明

首先source 对应的CANN和nnal包的安装路径
1. source [cann安装路径]/set_env.sh 默认：source /usr/local/Ascend/ascend-toolkit/set_env.sh
2. source [nnal安装路径]/set_env.sh
  默认：source /usr/local/Ascend/nnal/atb/set_env.sh
  ①. 如果使用加速库源码编译，source [加速库源码路径]/output/atb/set_env.sh
  例如： source ./ascend-transformer-boost/output/atb/set_env.sh
运行demo
```
bash build.sh
```
注意：
- 使用cxx_abi=0（默认）时，设置D_GLIBCXX_USE_CXX11_ABI为0，即：
```
g++ -D_GLIBCXX_USE_CXX11_ABI=0 -I ...
```
- 使用cxx_abi=1时，更改D_GLIBCXX_USE_CXX11_ABI为1，即：
```
g++ -D_GLIBCXX_USE_CXX11_ABI=1 -I ...
```
- 提供的build脚本仅用于编译和运行paged_attention_demo.cpp，如需编译其他demo，需要替换“paged_attention_demo”为对应的cpp文件名

额外说明

示例中生成的数据不代表实际场景，如需数据生成参考请查看根目录下的python用例目录： tests/apitest/opstest/python/operations/paged_attention/

产品支持情况

本op在Atlas A2/A3系列和Atlas 推理系列产品上实现有所区别

场景说明

提供demo编译运行时需要对应更改build脚本：

不开启并行解码且带mask场景：

paged_attention_demo.cpp

默认编译脚本可编译运行，该demo仅支持在Atlas A2/A3系列上运行。

参数设置：

成员名称	取值
headNum	32
qkScale	1 / sqrt(HEAD_SIZE)
kvHeadNum	32
batchRunStatus	0
quantType	`TYPE_QUANT_UNQUANT`
hasQuantOffset	false
calcType	`CALC_TYPE_UNDEFINED`
compressType	`COMPRESS_TYPE_UNDEFINED`
maskType	`MASK_TYPE_NORM`
mlaVHeadSize	0

数据规格：

tensor名字	数据类型	数据格式	维度信息	cpu/npu
`query`	float16	nd	[2, 32, 128]	npu
`keyCache`	float16	nd	[16, 128, 32, 128]	npu
`valueCache`	float16	nd	[16, 128, 32, 128]	npu
`blockTables`	int32	nd	[2, 8]	npu
`contextLens`	int32	nd	[2]	cpu
`mask`	int32	nd	[2, 1, 1024]	npu
`attnOut`	float16	nd	[2, 32, 128]	npu

paged_attention_qwen_demo.cpp

该demo仅支持在Atlas A2/A3系列上运行。

参数设置：

成员名称	取值
headNum	5
qkScale	1 / sqrt(HEAD_SIZE)
kvHeadNum	1
batchRunStatus	0
quantType	`TYPE_QUANT_UNDEFINED`
hasQuantOffset	false
calcType	`CALC_TYPE_UNDEFINED`
compressType	`COMPRESS_TYPE_UNDEFINED`
maskType	`UNDEFINED`
mlaVHeadSize	0

数据规格：

tensor名字	数据类型	数据格式	维度信息	cpu/npu
`query`	bf16	nd	[1, 5, 128]	npu
`qkScale`	bf16	nd	[9, 128, 1, 128]	npu
`valueCache`	bf16	nd	[9, 128, 1, 128]	npu
`blockTables`	int32	nd	[1, 8]	npu
`contextLens`	int32	nd	[1]	cpu
`attnOut`	bf16	nd	[1, 5, 128]	npu

不带mask：

paged_attention_inference_demo.cpp
该demo仅支持在Atlas推理系列产品上运行。
参数设置：

成员名称	取值
headNum	32
qkScale	1 / sqrt(HEAD_SIZE)
kvHeadNum	32
batchRunStatus	0
quantType	`TYPE_QUANT_UNQUANT`
hasQuantOffset	false
calcType	`CALC_TYPE_UNDEFINED`
compressType	`COMPRESS_TYPE_UNDEFINED`
maskType	`UNDEFINED`
mlaVHeadSize	0

数据规格：

tensor名字	数据类型	数据格式	维度信息	cpu/npu
`query`	bf16	nd	[2, 32, 128]	npu
`qkScale`	bf16	nd	[16, 1024, 128, 16]	npu
`valueCache`	bf16	nd	[16, 1024, 128, 16]	npu
`blockTables`	int32	nd	[2, 8]	npu
`contextLens`	int32	nd	[2]	cpu
`attnOut`	bf16	nd	[2, 32, 128]	npu

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

基于深度学习的淋巴瘤病理诊断AI模型构建实战

1. 项目概述与核心价值最近在病理诊断领域，一个名为“LymphoML”的项目引起了我的注意。这本质上是一个利用人工智能，特别是深度学习技术，通过分析细胞形态学特征来辅助诊断淋巴瘤的模型。作为一名在医疗影像和AI交叉领域摸爬滚打了十多年的从…

李华

认知破壁理论：新累土哲学的科研方法论——碳硅共生时代的科学探索与认知跃迁

认知破壁理论：新累土哲学的科研方法论——碳硅共生时代的科学探索与认知跃迁作者：方见华单位：世毫九实验室引言在人类认知史上，每一次重大的范式转换都源于对既有认知边界的突破。从地心说到日心说，从经典力学到相…

李华

CANN竞赛Erf算子赛题

一、赛题背景【免费下载链接】cann-competitions 本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。项目地址: https://gitcode.com/cann/cann-competitions 高斯误差函数 (erf) 是数学和统计学中的基本函数，广泛应…

李华

CANN/XLA-NPU：昇腾NPU的XLA后端

XLA-NPU 【免费下载链接】xla-npu XLA-NPU 是一个面向华为昇腾NPU硬件的 XLA后端实现。本项目通过接入OpenXLA/XLA开源项目，将XLA开源生态与华为 CANN软件栈集成，对接JAX框架。JAX框架运行时可以直接加载XLA-NPU，使得基于JAX框架开发的模型可…

李华

CANN/pto-isa内核开发者规则与限制

这个文档列出了一些kernel开发者使用auto模式的一些规则和限制。【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance…

李华

CANN/ops-math 二维复制填充算子

aclnnReplicationPad2d 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-math 📄 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas…

$作者头像$ 李华