news 2026/4/20 18:40:56

【NPU】【精度】【数据踩踏】AdaptiveMaxpool3D算子indices精度问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【NPU】【精度】【数据踩踏】AdaptiveMaxpool3D算子indices精度问题

AdaptiveMaxpool3D功能说明文档:https://gitcode.com/cann/ops-nn/blob/master/pooling/adaptive_max_pool3d/README.md。

1. 精度异常表现

AdaptiveMaxPool​(自适应最大池化)是深度学习领域常见的池化操作,可将任意输入尺寸映射为固定输出尺寸。在NPU上调试AdaptiveMaxpool3D算子时,碰到一些索引与cpu标杆差异的地方,对此问题做一个记录。
简化用例信息如下:输入一个[1,1,1,15,17]张量,通过控制属性参数outputSize为[1,2,17],输出[1,1,1,2,17]大小的最大值和索引两个张量。

op_namex_shapex_dtypey_shapey_dtypeargmax_shapeargmax_dtypeoutputSizedata_format_str
AdaptiveMaxpool3D1,1,1,15,17float161,1,1,2,17float161,1,1,2,17int321,2,17NCDHW

笔者将用例输出的结果同cpu进行比对如下:与cpu的结果比较中最大值输出正确,但索引位置错误,cpu为202,npu为49271
AdaptiveMaxPool返回结果中,索引是用来记录获取的最大值位置,便于反向传播进行正确路径的梯度更新,以torch_cpu功能作为参考,假设输入张量是[N,C,D,H,W],那么索引位置会是D*H*W输入尺寸铺平成一维后的索引位置(扁平化绝对索引)。根据输入用例尺寸来看索引位置最大为1*15*170~254的范围,不可能是49271,很明显,npu的索引输出存在异常。

2. 定位过程

通过多次运行相同用例shape,发现都在同一位置输入错误索引。我们首先粗略排查索引的计算过程,但并没有发现明显逻辑问题。既然运行是必现的,最简单方式就是找到49271异常值是什么时候出现的。
原先笔者已经将用例简化到[1,1,1,15,17]大小,小量数据可以帮助我们更好进行观察。我们通过从计算索引→搬出结果的反向过程插入DumpTensor(GlobalTensor/LocalTensor, 代码行号, 元素个数)函数重新编译算子运行,可以逐步打印NPU上的Tensor内容值进行观察,发现错误数据第一次出现在上述红框的for循环中Select函数之后。

再往前Select函数的输入Tensor数值打印出来没有明显异常值,因此我们深入分析Select的配置参数和功能逻辑是否存在与预想不一致的地方。在官网文档中发现该接口使用一个8K的预留空间,是一个疑点。
(官网文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/API/ascendcopapi/atlasascendc_api_07_0070.html)

笔者通过搜索InitBuffer函数快速查验一下空间分配情况,这个算子使用了固定大小分配,比较好分析,计算了一下大概为185kb185+8=193kb!!!这超过了芯片最大提供的192kbub空间大小,这会导致内存空间被踩!!!

// 初始化que pipe->InitBuffer(inputQue, 1, 32 * 1024); pipe->InitBuffer(maxQue, 1, 8 * 1024); pipe->InitBuffer(indexQue, 1, 8 * 1024); // 初始化Tbuf pipe->InitBuffer(cmpMaskBuffer, 512); pipe->InitBuffer(cmpNanMaskBuffer, 512); pipe->InitBuffer(inputTransBuffer, 32 * 1024); pipe->InitBuffer(resetIndexBuf, 4 * 1024); pipe->InitBuffer(nextCmpBuffer, 4 * 1024); pipe->InitBuffer(mulWBuffer, 64 * 1024); pipe->InitBuffer(mulWIdxBuffer, 32 * 1024);

3. 解决方式

单核在进行pipe->InitBuffer在进行192kb空间分配时是按顺序分的。在空间分配时,mulWBuffer的空间申请有一部分作用用于复用计算,我们将其移动到最后进行空间的分配,这样子改动最小化,Select接口的预留的8kb即使踩到mulWBuffer也只涉及到无效数据部分,不影响计算结果。在调整完顺序后重新进行验证,验证结果通过。

// 初始化que pipe->InitBuffer(inputQue, 1, 32 * 1024); pipe->InitBuffer(maxQue, 1, 8 * 1024); pipe->InitBuffer(indexQue, 1, 8 * 1024); // 初始化Tbuf pipe->InitBuffer(cmpMaskBuffer, 512); pipe->InitBuffer(cmpNanMaskBuffer, 512); pipe->InitBuffer(inputTransBuffer, 32 * 1024); pipe->InitBuffer(resetIndexBuf, 4 * 1024); pipe->InitBuffer(nextCmpBuffer, 4 * 1024); pipe->InitBuffer(mulWIdxBuffer, 32 * 1024); pipe->InitBuffer(mulWBuffer, 64 * 1024); //移动到最后

4. 根因

Select接口的使用需要预留8K的Unified Buffer空间,但是原有kernel已经申请了185kb空间,185+8=193kb超过了芯片最大提供的192kbub空间大小,导致Select函数踩到有效数据,输出异常索引值。

5. 启发

1、对于一些可复现异常,可以通过简化输入条件来降低定位的复杂度,通过二分打印数据的变化找到异常引入点。
2、在算子开发中,要考虑到最大的ub内存空间进行合理的分配,留意API接口中容易忽视的约束,部分的指令可能需要预留一部分的ub空间,不然可能会造成内存踩踏。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 10:23:27

STM32飞控代码:EKF融合+位置姿态PID控制

目录 1. 代码结构总览 2. 完整代码示例(STM32 HAL) 3. 使用说明 完整可烧录到 STM32 飞控运行的一体化控制代码,包含: 三维 EKF 数据融合(GPS 光流 气压计)位置 PID 控制(X、Y、Z 轴&…

作者头像 李华
网站建设 2026/4/17 14:13:19

YOLOv8 BYOL无需负样本的对比学习

YOLOv8 BYOL:无需负样本的自监督目标检测新范式 在工业质检车间,每天有数以万计的产品流过摄像头,但真正被标注用于训练的数据可能不足百张。标注一张缺陷图需要资深工程师反复确认,耗时几分钟;而采集图像几乎是零成本…

作者头像 李华
网站建设 2026/4/20 2:30:26

YOLOv8 WIoU权重IoU损失函数最新进展

YOLOv8 WIoU权重IoU损失函数最新进展 在工业质检线上,一个微小的焊点缺陷可能被传统检测模型轻易忽略;在高速行驶的自动驾驶场景中,远处行人框预测稍有偏差就可能导致严重后果。这些现实挑战不断推动目标检测技术向更高精度、更强鲁棒性的方向…

作者头像 李华
网站建设 2026/4/18 1:55:03

laravel意庐甜品蛋糕商城网站商城 博客laravel vue

目录具体实现截图项目介绍论文大纲核心代码部分展示可定制开发之亮点部门介绍结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持Python(flask,django)、…

作者头像 李华
网站建设 2026/4/18 23:36:00

springboot私人口腔牙科医院信息管理系统vue

目录 具体实现截图项目介绍论文大纲核心代码部分展示可定制开发之亮点部门介绍结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持Python(flask,django…

作者头像 李华
网站建设 2026/4/18 5:29:52

YOLOv8 SNIP尺度归一化图像金字塔应用

YOLOv8 SNIP尺度归一化图像金字塔应用 在自动驾驶系统中,远处的行人可能仅占几个像素,而近处车辆却铺满整个视野;在无人机航拍场景下,同一画面里既有人群也有建筑群。这类极端尺度变化给目标检测带来了巨大挑战——传统模型往往顾…

作者头像 李华