误差反向传播法的实现：像搭乐高一样构建神经网络-平芜编程栈

误差反向传播法的实现：像搭乐高一样构建神经网络

在深度学习中，实现一个神经网络可以像组装乐高积木一样简单——通过组合已经实现好的各种层，我们可以构建出功能强大的模型。今天，我们将深入探讨如何通过这种方法实现神经网络，并重点介绍误差反向传播法的应用。

🧠 神经网络学习全貌

在开始具体实现之前，我们先回顾神经网络学习的完整流程：

学习四部曲

mini-batch（小批量）- 从训练数据中随机选择一部分样本
计算梯度- 计算损失函数关于各个权重参数的梯度
更新参数- 沿梯度方向微调权重参数
重复上述步骤

误差反向传播法的魔力就体现在步骤2中。与计算耗时的数值微分不同，反向传播能够高效、快速地计算梯度，这让训练深度神经网络成为可能。

🏗️ TwoLayerNet 类的设计

我们首先设计一个两层神经网络类TwoLayerNet，它的结构如下：

实例变量

params：保存权重参数的字典
- W1,b1：第1层的权重和偏置
- W2,b2：第2层的权重和偏置
layers：有序字典，按顺序保存神经网络的层
lastLayer：最后的损失函数层

关键方法

predict(x)：进行推理（前向传播）
loss(x, t)：计算损失值
accuracy(x, t)：计算识别精度
gradient(x, t)：计算梯度（使用误差反向传播法）
numerical_gradient(x, t)：计算梯度（使用数值微分，用于验证）

🔧 核心实现解析

1. 初始化：搭建神经网络“骨架”

def__init__(self,input_size,hidden_size,output_size,weight_init_std=0.01):# 初始化权重self.params={}self.params['W1']=weight_init_std*np.random.randn(input_size,hidden_size)self.params['b1']=np.zeros(hidden_size)self.params['W2']=weight_init_std*np.random.randn(hidden_size,output_size)self.params['b2']=np.zeros(output_size)# 生成层 - 像搭乐高一样有序组装self.layers=OrderedDict()self.layers['Affine1']=Affine(self.params['W1'],self.params['b1'])self.layers['Relu1']=Relu()self.layers['Affine2']=Affine(self.params['W2'],self.params['b2'])self.lastLayer=SoftmaxWithLoss()

关键点：使用OrderedDict（有序字典）保存各层非常重要，它能记住添加元素的顺序，确保前向传播按正确顺序执行，反向传播按相反顺序执行。

2. 前向传播：顺序通过各层

defpredict(self,x):forlayerinself.layers.values():x=layer.forward(x)# 一层接一层处理returnx

3. 误差反向传播：高效计算梯度

defgradient(self,x,t):# 前向传播self.loss(x,t)# 反向传播dout=1dout=self.lastLayer.backward(dout)# 按相反顺序调用各层的反向传播layers=list(self.layers.values())layers.reverse()forlayerinlayers:dout=layer.backward(dout)# 收集梯度grads={}grads['W1']=self.layers['Affine1'].dW grads['b1']=self.layers['Affine1'].db grads['W2']=self.layers['Affine2'].dW grads['b2']=self.layers['Affine2'].dbreturngrads

✅ 梯度确认：确保反向传播正确实现

反向传播实现复杂，容易出错。我们可以通过比较数值微分和反向传播的结果来进行验证：

# 梯度确认示例grad_numerical=network.numerical_gradient(x_batch,t_batch)# 数值微分grad_backprop=network.gradient(x_batch,t_batch)# 反向传播# 计算两者差异forkeyingrad_numerical.keys():diff=np.average(np.abs(grad_backprop[key]-grad_numerical[key]))print(key+":"+str(diff))

理想结果：两者的差异应该非常小（如1e-10级别）。如果差异很大，说明反向传播的实现可能有误。

🚀 使用误差反向传播法进行学习

实际训练时，我们使用反向传播法高效计算梯度：

# 训练循环关键部分foriinrange(iters_num):# 随机选择mini-batchbatch_mask=np.random.choice(train_size,batch_size)x_batch=x_train[batch_mask]t_batch=t_train[batch_mask]# 使用误差反向传播法求梯度（快速！）grad=network.gradient(x_batch,t_batch)# 参数更新forkeyin('W1','b1','W2','b2'):network.params[key]-=learning_rate*grad[key]