【NPU】【精度】【数值计算】Adam算子计算顺序不同引发的精度问题-平芜编程栈

1. 精度异常表现

Adam（Adaptive Moment Estimation）是深度学习中最常用的自适应学习率优化器之一，用来更新网络模型训练参数。在NPU上调试apply_adam算子时遇到了一些微小的精度差异，有一个用例精度正确率只有99.9931%，数据类型为fp32，报错索引位置和与标杆的误差如下：

可以看到误差为0.000x, 来到了小数点的后四位。似乎这是计算过程中引入的必不可少的误差（报错位置分布毫无规律），但严谨考虑（该算子为优化器算子）我们还是要再细究一下这个问题，以避免模型训练累积误差。

2. 观察和猜想

apply_adam 的计算公式如下：

2.1 猜想1

可以看到公式中有add，sub，sqrt，div，mul 5类指令。这几个指令中最可能出问题的就是sqrt了（从计算的复杂度考虑）。于是笔者尝试用牛顿迭代法手动实现了sqrt的计算，公式如下：

式中，n为需要求取的值，x_k为每次迭代结果值，初始值设置为x_0=n/2。
通常迭代5~6次就能满足fp64的精度，保守起见，笔者迭代了10次来验证精度是否由此处引起。不幸地是，依然存在同样的精度问题。

2.2 猜想2

就在笔者准备放弃尝试，承认这是硬件计算误差带来的问题时，突然瞥见最后一个公式w使用了下面的计算逻辑：

Muls(outCastLocal[expAvgOffset_], outCastLocal[expAvgOffset_], stepSize_, dataCount); PipeBarrier<PIPE_V>(); Div(inCastLocal[varOffset_], outCastLocal[expAvgOffset_], inCastLocal[varOffset_], dataCount);

我们通过下面这个公式来进行讲解：

在原本要计算的逻辑过程中应该先计算a = tensor1/tensor2，再计算value * a，即先除后乘。然而在实际实现中写成了数学上“等价”的形式：a = value * tensor1，然后计算a/tensor2，先乘后除。在浮点数计算中，由于精度限制，运算顺序的改变可能导致不同的舍入误差，二者在实际实现中并不完全等价，也就有可能引入误差。
而验证的方法非常简单，直接将第1行和第3行代码行交换一下位置变成先除后乘：

Div(inCastLocal[varOffset_], outCastLocal[expAvgOffset_], inCastLocal[varOffset_], dataCount); PipeBarrier<PIPE_V>(); Muls(inCastLocal[varOffset_], inCastLocal[varOffset_], stepSize_, dataCount);

再重新经过验证，果然精度100%通过。

3. 根因

浮点运算中，本应先除后乘，但实际实现被写成了先乘后除。虽然数学上等价，但在浮点运算中，由于中间结果的舍入误差累积不同，导致最终结果出现精度偏差。

4. 解决方法

调整w参数计算过程中l*m/(√v+ε)中的错误计算顺序，先计算a=m/(√v+ε)，再计算l*a，与实际计算顺序保持一致，避免浮点计算误差。

5. 启发

如果我们止步于99.9931%时，不再细究，就可能遇到在模型集群训练时模型loss跑飞的问题。小小的乘法顺序不同可能会导致几天的模型白白训练。

浮点数数值敏感是个需要长时间投入研究的课题，当出现了精度的细微差距时，开发者也要敏感起来。
可能你的计算逻辑看上去是等价的，但是遇到问题时还是要看看CPU或者你的参考标杆是怎么处理的。

【NPU】【精度】【数据踩踏】AdaptiveMaxpool3D算子indices精度问题

AdaptiveMaxpool3D功能说明文档：https://gitcode.com/cann/ops-nn/blob/master/pooling/adaptive_max_pool3d/README.md。 1. 精度异常表现 AdaptiveMaxPool（自适应最大池化）是深度学习领域常见的池化操作，可将任意输入尺寸映…