53-池化层-平芜编程栈

二维最大池化（2×2 Max Pooling）完整讲解

一、核心定义

最大池化（Max Pooling）是卷积神经网络 CNN 里下采样（降维）操作：用固定大小滑动窗口（这里是 2×2 窗口）在特征图上滑动，每个窗口内只保留最大值，舍弃其余数值，实现：

缩小特征图尺寸，减少计算量；
赋予特征平移鲁棒性（图里标注的「可容 1 像素移位」就是这个作用）。

二、图中三组数据分步拆解

1. 原始输入：垂直边缘检测原图（4 行 5 列）

plaintext

[[1, 1, 0, 0, 0], [1, 1, 0, 0, 0], [1, 1, 0, 0, 0], [1, 1, 0, 0, 0]]

左边全 1、右边全 0，中间分界就是垂直边缘，用来检测图像里竖直的线条。

2. 卷积输出（4 行 4 列特征图）

plaintext

[[0, 1, 0, 0], [0, 1, 0, 0], [0, 1, 0, 0], [0, 1, 0, 0]]

经过垂直边缘卷积核计算后，垂直边缘位置全部输出 1，其余位置为 0，清晰提取出竖直边缘特征。

3. 2×2 最大池化操作（池化窗口 2×2，步幅默认 2）

对上面 4×4 卷积结果滑动 2×2 窗口，每个窗口取最大值：

窗口 1（左上 2×2）：
窗口 2（右上 2×2）：
窗口 3（左下 2×2）：
窗口 4（右下 2×2）：

拼接得到池化输出：

plaintext

[[1, 1], [1, 1]]

图里简化写成 4 行 4 列只是示意逻辑，实际 2×2 池化 4×4 输入会输出 2×2 特征图。

三、重点：「可容 1 像素移位」是什么意思？

这是最大池化最关键的特性 ——平移不变性：

假设原图里的垂直边缘左右偏移 1 个像素；
卷积后的特征图里 1 的位置也会跟着偏移 1 格；
但 2×2 窗口取最大值时，只要窗口里还包含 1，池化输出结果依然是 1。

简单说：哪怕物体 / 边缘在图片里轻微移动 1 个像素，池化后网络依然能识别出「这里存在垂直边缘」，不会因为微小位移丢失特征，提升模型对物体位置变化的容错能力。

四、最大池化的优缺点

优点

降维：减少特征图像素，大幅降低后续卷积的计算量；
抗微小平移：轻微移位不影响特征识别（图中核心作用）；
保留强特征：只取窗口最大值，突出显著边缘 / 纹理。

缺点

会丢失窗口内除最大值外的细节信息，极端情况会2损失细小特征。

补充对比平均池化

如果是平均池化会取窗口所有数平均值，而最大池化只保留最强信号，在图像特征提取任务中使用更广泛。

3分钟快速上手：B站会员购抢票神器biliTickerBuy完整指南

3分钟快速上手：B站会员购抢票神器biliTickerBuy完整指南【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy 还在为B站会员购抢票而烦恼吗？每次热门演唱会门票开售瞬间秒光&…