别再死记Adam公式了！用Python手搓一个Adam优化器，带你彻底搞懂一阶矩和二阶矩-平芜编程栈

从零实现Adam优化器：用Python代码揭开一阶矩与二阶矩的奥秘

在深度学习的世界里，优化器就像是模型训练的导航系统。Adam作为当下最受欢迎的优化算法之一，其核心思想却常常被简化为"记住公式就行"。但真正理解Adam的工作原理，远比死记硬背那些数学符号要有价值得多。今天，我们就用Python从零开始构建一个Adam优化器，通过代码的每一行来感受一阶矩（动量）和二阶矩（自适应学习率）的魔力。

1. 优化器基础：为什么需要Adam？

任何深度学习模型的训练，本质上都是在寻找一组能够最小化损失函数的参数。传统的随机梯度下降（SGD）虽然简单直接，但在面对复杂地形时却显得力不从心。想象你正在一个多山地带徒步，SGD就像是一个只看脚下一步的登山者，容易陷入局部洼地或者在山谷中来回震荡。

Adam的出现解决了几个关键问题：

动量机制：像滚下山坡的雪球，积累之前的运动趋势
自适应学习率：为每个参数定制不同的学习步长
偏差校正：解决初期估计偏小的问题

import numpy as np class VanillaSGD: def __init__(self, lr=0.01): self.lr = lr def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key] return params

这个最简单的SGD实现暴露了三个明显缺陷：

所有参数使用相同的学习率
没有考虑梯度历史信息
对稀疏特征处理不佳

2. Adam的核心组件实现

2.1 一阶矩：动量积累

动量概念源自物理学，在优化问题中，它通过指数加权平均来累积过去的梯度信息。这就像给优化过程增加了惯性，使其能够抵抗噪声干扰并加速在稳定方向的收敛。

def update_momentum(m, beta, grad): """更新一阶矩估计""" return beta * m + (1 - beta) * grad

这里β₁（通常设为0.9）控制着历史信息的衰减速度。较小的β₁会使优化器更快忘记过去，对当前梯度更敏感。

2.2 二阶矩：自适应学习率

Adam的另一个创新是引入二阶矩估计，它为每个参数维护一个独立的学习率。这个想法源自AdaGrad和RMSprop，但加入了指数加权平均：

def update_second_moment(v, beta, grad): """更新二阶矩估计""" return beta * v + (1 - beta) * grad**2

β₂（通常设为0.999）控制着梯度平方的衰减速度。这个值接近1，意味着二阶矩变化更加平滑。

2.3 偏差校正的数学原理

由于m和v初始化为0，在训练初期会导致估计偏小。偏差校正通过时间步t来调整：

def bias_correction(var, beta, t): """应用偏差校正""" return var / (1 - beta**t)

这个校正项在早期影响显著，随着t增大逐渐趋近于1。下面是对比表格展示了校正前后的差异：

时间步t	未校正m_t	校正后m_t (β=0.9)
1	0.1	1.0
10	0.65	0.87
100	0.90	0.95

3. 完整Adam优化器实现

现在我们将所有组件组合起来，实现完整的Adam优化器：

class AdamOptimizer: def __init__(self, lr=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8): self.lr = lr self.beta1 = beta1 self.beta2 = beta2 self.epsilon = epsilon self.m = None self.v = None self.t = 0 def update(self, params, grads): if self.m is None: self.m = {k: np.zeros_like(v) for k, v in params.items()} self.v = {k: np.zeros_like(v) for k, v in params.items()} self.t += 1 for key in params.keys(): self.m[key] = self.beta1 * self.m[key] + (1 - self.beta1) * grads[key] self.v[key] = self.beta2 * self.v[key] + (1 - self.beta2) * (grads[key]**2) # 偏差校正 m_hat = self.m[key] / (1 - self.beta1**self.t) v_hat = self.v[key] / (1 - self.beta2**self.t) # 参数更新 params[key] -= self.lr * m_hat / (np.sqrt(v_hat) + self.epsilon) return params

这个实现包含了Adam的所有关键要素：

维护一阶矩(m)和二阶矩(v)的指数移动平均
随时间步t进行偏差校正
使用ε(1e-8)防止除以零
为每个参数独立计算更新量

4. 实战对比：Adam vs SGD vs RMSprop

为了直观感受Adam的优势，我们在简单二次函数上对比几种优化器的表现：

def test_optimizer(optimizer, num_iter=100): x = 5.0 # 初始值 history = [] for _ in range(num_iter): grad = 2 * x # 目标函数f(x)=x^2的梯度 x = optimizer.update(x, grad) history.append(x) return history

优化器配置：

sgd = VanillaSGD(lr=0.1) rmsprop = RMSpropOptimizer(lr=0.1) adam = AdamOptimizer(lr=0.1)

运行后我们可以观察到：

SGD：在最优解附近震荡
RMSprop：快速收敛但后期可能停滞
Adam：平稳快速收敛到最优解

5. Adam的超参数调优指南

虽然Adam被称为"几乎不需要调参"，但合理设置仍能提升性能：

参数	典型值范围	影响效果	调整建议
学习率(lr)	1e-5到1e-2	控制更新步长	从3e-4开始尝试
β₁	0.8到0.999	控制动量衰减	稀疏数据用较小值(0.8)
β₂	0.98到0.9999	控制二阶矩衰减	稳定问题用较大值(0.999)
ε	1e-8到1e-4	数值稳定性保障	通常不需要修改

实际项目中我发现几个实用技巧：

在训练后期适当降低学习率
对嵌入层使用更大的β₁(接近0.999)
当验证集波动大时，尝试减小β₂

6. 进阶话题：Adam的变种与局限

虽然Adam表现出色，但它并非完美无缺。近年来出现了多个改进版本：

AdamW：解耦权重衰减，更符合L2正则的本意
NAdam：引入Nesterov加速，提升收敛稳定性
AMSGrad：解决自适应方法可能不收敛的问题

class AdamW(AdamOptimizer): def __init__(self, weight_decay=0.01, **kwargs): super().__init__(**kwargs) self.weight_decay = weight_decay def update(self, params, grads): # 先应用权重衰减 for key in params.keys(): grads[key] += self.weight_decay * params[key] # 然后执行标准Adam更新 return super().update(params, grads)

Adam的主要局限包括：