AI 术语通俗词典：卷积层-平芜编程栈

卷积层是深度学习、卷积神经网络、计算机视觉和人工智能中非常重要的一个术语。它用来描述一种通过卷积核在输入数据上滑动，提取局部特征的神经网络层。换句话说，卷积层是在回答：模型怎样从图像、语音或序列数据中自动发现边缘、纹理、局部形状等有用模式。

如果说普通全连接层会把所有输入特征一次性连接起来，那么卷积层更强调“局部观察”和“参数共享”。它不需要每个像素都和每个神经元完全连接，而是用较小的卷积核在输入上反复扫描，从局部区域中提取特征。因此，卷积层常用于图像分类、目标检测、图像分割、医学影像分析、语音处理和时间序列建模，是卷积神经网络（CNN）的核心组成部分。

一、基本概念：什么是卷积层

卷积层（Convolutional Layer）是神经网络中用于提取局部特征的一种层结构。

在图像任务中，输入通常可以看成一个二维或三维数组。例如，一张灰度图像可以表示为：

其中：

• H 表示图像高度

• W 表示图像宽度

一张彩色图像通常有三个通道，可以表示为：

其中：

• C 表示通道数。RGB 彩色图像中，C 通常为 3

卷积层会使用一个小窗口，也就是卷积核（Kernel / Filter），在输入上滑动。每滑动到一个位置，就对该局部区域进行一次加权求和，得到输出特征图中的一个值。

可以简单表示为：

输入图像 → 卷积核滑动扫描 → 输出特征图

图 1：卷积核滑动与特征图生成过程示意

从通俗角度看，卷积层可以理解为：用一个小型“特征探测器”在图像上到处寻找某种局部模式。

例如：

• 某个卷积核可能检测水平边缘

• 某个卷积核可能检测垂直边缘

• 某个卷积核可能检测纹理变化

• 更深层的卷积核可能检测眼睛、轮廓、车轮等局部结构

因此，卷积层不是人工手写规则，而是通过训练自动学习“应该检测什么特征”。

二、为什么需要卷积层

卷积层之所以重要，是因为图像、语音和序列数据中通常存在明显的局部结构。

以图像为例，一个像素本身意义有限，真正有意义的往往是附近像素组成的局部模式：

• 边缘

• 角点

• 纹理

• 色块

• 局部轮廓

• 物体部件

如果使用普通全连接层处理图像，就需要把整张图片展平成一个长向量。这样会带来两个问题。

第一，参数量巨大。

例如，一张 224 × 224 × 3 的彩色图像，如果直接输入全连接层，输入维度就是：

如果下一层有 1000 个神经元，就会产生超过 1.5 亿个权重参数，计算和存储成本都很高。

第二，空间结构容易丢失。

图像中相邻像素之间有强关系，展平成向量后，这种二维空间关系不再直观。

卷积层通过两个关键思想解决这些问题：

• 局部连接

• 参数共享

从通俗角度看：卷积层不试图一次看完整张图，而是用小窗口观察局部，再把这种观察方式应用到整张图。

这样既减少参数量，又保留了图像的空间结构。这也是卷积神经网络在图像任务中长期非常成功的重要原因。

三、卷积层的核心计算过程

卷积层的基本计算可以理解为：

局部区域 × 卷积核权重 → 求和 → 得到一个输出值

假设输入图像中的一个局部区域为：

卷积核为：

那么该位置的卷积输出可以写为：

其中：

• xᵢⱼ 表示输入局部区域中的像素值或特征值

• wᵢⱼ 表示卷积核中对应位置的权重

• b 表示偏置

• y 表示该位置的输出值

从通俗角度看：卷积核把局部区域中的每个值乘上对应权重，再求和，得到这个位置是否具有某种特征的响应强度。

如果该局部区域与卷积核所关注的模式相似，输出值就可能较大；

如果不相似，输出值就可能较小。

卷积核会在输入上不断滑动，每个位置都做类似计算，最终形成一张新的特征图（Feature Map）。

可以表示为：

输入图像 ↓卷积核逐位置计算 ↓特征图

特征图中的每个值，表示卷积核在对应位置检测到某种特征的强弱。

四、卷积核与特征图

卷积层中最重要的两个概念是：

• 卷积核

• 特征图

1、卷积核：特征探测器

卷积核（Kernel / Filter）是一组可学习的权重。

例如，一个 3 × 3 卷积核有 9 个权重：

如果输入有多个通道，例如 RGB 图像有 3 个通道，那么一个卷积核实际上会覆盖所有输入通道，形状可以理解为：

卷积核的作用是检测某种局部模式。

从通俗角度看：卷积核就像一个小型模板，它在图像上寻找和自己相似的局部结构。

训练前，卷积核通常是随机初始化的；训练过程中，模型会通过反向传播不断调整卷积核权重，使它们逐渐学会检测有用特征。

2、特征图：特征响应结果

特征图（Feature Map）是卷积核在输入上滑动计算后得到的输出。

如果一个卷积核负责检测“水平边缘”，那么它生成的特征图就表示：图像中哪些位置像水平边缘，以及响应强度有多大。

如果卷积层有多个卷积核，就会输出多个特征图。

例如，一个卷积层有 32 个卷积核，就会输出 32 张特征图：

其中：

• H′ 表示输出特征图高度

• W′ 表示输出特征图宽度

• 32 表示输出通道数

从通俗角度看：一个卷积核产生一张特征图，多个卷积核产生多组特征响应。

这些特征图会作为下一层卷积层的输入，继续提取更复杂的特征。

五、步幅、填充与输出尺寸

卷积层的输出大小不仅取决于输入和卷积核，还取决于两个重要参数：

• 步幅

• 填充

1、步幅：卷积核每次移动多远

步幅（Stride）表示卷积核每次滑动的距离。

如果 stride = 1，卷积核每次移动 1 个像素；

如果 stride = 2，卷积核每次移动 2 个像素。

从通俗角度看：步幅越大，扫描越稀疏，输出特征图越小。

例如：

stride = 1：细致扫描stride = 2：隔一个位置扫描

较大的步幅可以减少计算量，也会降低空间分辨率。

2、填充：在边缘补像素

填充（Padding）是在输入边缘补上一圈或多圈像素，常见补 0。

如果不填充，卷积核无法完整覆盖图像边缘区域，输出尺寸会变小。

填充的作用包括：

• 保留边缘信息

• 控制输出尺寸

• 使输出高度和宽度不至于过快缩小

从通俗角度看：填充就像给图像边缘加一圈空白，让卷积核也能扫描到边缘位置。

3、输出尺寸公式

对于二维卷积，如果输入大小为 H × W，卷积核大小为 K，填充为 P，步幅为 S，则输出高度可以写为：

输出宽度为：

其中：

• H_out 表示输出高度

• W_out 表示输出宽度

• H、W 表示输入高度和宽度

• K 表示卷积核大小

• P 表示填充大小

• S 表示步幅

• ⌊ ⌋ 表示向下取整

从实践角度看，步幅和填充决定了特征图的空间大小，是设计卷积神经网络时必须关注的参数。

六、局部连接与参数共享

卷积层最核心的设计思想是：

• 局部连接

• 参数共享

图 2：卷积层中的局部连接与参数共享

1、局部连接

局部连接表示一个卷积核每次只看输入中的一个小区域，而不是同时连接全部输入。

例如，一个 3 × 3 卷积核每次只观察 3 × 3 的局部区域。

从通俗角度看：卷积层认为局部邻域中的信息最相关。

这非常适合图像任务，因为边缘、纹理、角点等基本视觉模式通常都是局部形成的。

2、参数共享

参数共享表示同一个卷积核会在整张图像上重复使用。

也就是说，卷积核在不同位置使用的是同一组权重。

从通俗角度看：如果一个卷积核能检测左上角的边缘，它也应该能检测右下角的同类边缘。

这带来两个好处。

第一，大幅减少参数量。

一个 3 × 3 卷积核只有 9 个空间权重，不需要为图像每个位置单独学习一套参数。

第二，增强平移等变性。

同一个特征出现在图像不同位置时，卷积核都可以检测到它。

需要注意，这里更准确地说是“平移等变性”，不是完全平移不变性。

也就是说，输入中的特征位置移动，输出特征图中的响应位置也会相应移动。

从通俗角度看：卷积层在整张图上使用同一套特征探测器，因此能在不同位置寻找同一种模式。

七、卷积层如何逐层提取特征

卷积神经网络通常包含多个卷积层。不同层提取的特征层次不同。

浅层卷积层通常学习低级特征，例如：

• 边缘

• 角点

• 颜色变化

• 简单纹理

中间卷积层可能学习更复杂的局部结构，例如：

• 局部形状

• 重复纹理

• 物体部件

深层卷积层可能学习更高级语义特征，例如：

• 眼睛

• 车轮

• 动物脸部

• 物体整体轮廓

可以概括为：

像素 → 边缘 → 纹理 → 局部形状 → 物体部件 → 高级语义

从通俗角度看：卷积层不是一次性理解整张图，而是通过多层结构，从简单视觉模式逐步组合出复杂语义。

例如，在识别猫时：

• 第一层可能检测边缘和纹理

• 中间层可能检测耳朵、眼睛、胡须等局部结构

• 深层可能形成“猫脸”或“猫身体”的整体响应

这正是卷积神经网络在图像任务中强大的原因。

八、卷积层与全连接层的区别

卷积层经常与全连接层进行比较。

1、连接方式不同

全连接层中，每个输出神经元都连接所有输入特征。

可以表示为：

其中 W 通常是一个较大的权重矩阵。

卷积层则只连接局部区域，并且共享参数。

从通俗角度看：

• 全连接层：每个神经元看全部输入

• 卷积层：每个卷积核看局部区域，并在全图复用

2、参数量不同

全连接层参数量通常较大，尤其是输入维度很高时。

卷积层由于使用局部连接和参数共享，参数量通常少得多。

例如，一个 3 × 3 卷积核只有少量参数，但可以应用到整张图像的所有位置。

3、适用数据不同

全连接层适合一般向量特征，例如表格数据或已经提取好的特征向量。

卷积层更适合具有局部结构的数据，例如：

• 图像

• 视频

• 语音频谱

• 时间序列

• 某些二维或一维信号

从通俗角度看：全连接层擅长综合全局向量信息，卷积层擅长提取局部模式。

在很多 CNN 中，前面使用卷积层提取特征，后面使用全连接层或全局池化层完成分类。

九、卷积层的优势、局限与使用注意事项

1、卷积层的主要优势

卷积层最大的优势是适合处理局部结构。

它能利用图像、语音、时间序列中的局部相关性，从局部模式中提取有用特征。

其次，卷积层参数量较少。

由于使用参数共享，同一个卷积核可以在整张输入上重复使用。

再次，卷积层具有较好的平移等变性。

同一种特征出现在不同位置时，卷积核都可以检测到它。

此外，卷积层可以逐层学习特征。

浅层学习边缘纹理，深层学习更复杂的语义结构。

从通俗角度看，卷积层的优势在于：它用少量可学习模板，在输入中寻找局部模式，并逐层组合成更高级特征。

2、卷积层的主要局限

卷积层也有局限。

首先，卷积层主要关注局部区域。

如果任务强烈依赖长距离关系，普通卷积可能需要很多层才能捕捉到远距离依赖。

其次，卷积层的局部性假设并不适合所有数据。

对于没有明显空间或局部结构的表格数据，普通卷积层不一定比全连接层更合适。

再次，卷积层对空间结构敏感。

如果输入排列顺序没有实际意义，使用卷积可能不合理。

此外，卷积层本身并不能完全解决尺度变化、旋转变化和复杂形变问题。实际模型中常结合池化、数据增强、归一化和更复杂结构。

3、使用卷积层时需要注意的问题

使用卷积层时，需要注意：

• 卷积核大小会影响局部感受野

• 步幅会影响输出尺寸和计算量

• 填充会影响边缘信息和输出大小

• 输出通道数决定卷积层能学习多少种特征

• 多层卷积可以扩大有效感受野

• 图像任务中常配合池化层、归一化层和激活函数

• 输入维度顺序要符合框架要求，例如 PyTorch 常用 NCHW

其中 NCHW 表示：

批量大小 N × 通道数 C × 高度 H × 宽度 W

从实践角度看，卷积层不是孤立使用的，而是和 ReLU、BatchNorm、池化、残差连接等模块共同构成完整卷积神经网络。

十、Python 示例

下面给出几个简单示例，用来帮助理解卷积层的基本使用。

示例 1：使用 PyTorch 创建二维卷积层

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 创建一个二维卷积层conv = nn.Conv2d( in_channels=3, # 输入通道数（RGB图像） out_channels=16, # 输出通道数（卷积核个数） kernel_size=3, # 卷积核大小3x3 stride=1, # 步长 padding=1 # 填充，使输出尺寸与输入相同) # 一个批次的图像：8 张 RGB 图像，每张大小为 32×32x = torch.randn(8, 3, 32, 32) # 前向传播y = conv(x) print("输入形状：", x.shape) # torch.Size([8, 3, 32, 32])print("输出形状：", y.shape) # torch.Size([8, 16, 32, 32])

这个例子中：

• in_channels=3 表示输入有 3 个通道

• out_channels=16 表示输出 16 个特征图

• kernel_size=3 表示使用 3 × 3 卷积核

• stride=1 表示每次移动 1 个位置

• padding=1 表示边缘补 1 圈

由于使用了 padding=1 和 stride=1，输出高度和宽度仍然是 32 × 32。

输出形状为 8 × 16 × 32 × 32，表示：8 张图像，每张有 16 个输出特征图。

示例 2：卷积层输出尺寸计算

import math def conv2d_output_size(H, W, K, S=1, P=0): """计算二维卷积输出尺寸（高度和宽度）""" # 输出高度公式：floor((输入高 + 2*填充 - 核尺寸) / 步长) + 1 H_out = math.floor((H + 2 * P - K) / S) + 1 # 输出宽度同理 W_out = math.floor((W + 2 * P - K) / S) + 1 return H_out, W_out # 输入图像尺寸：32x32H, W = 32, 32# 卷积核大小：3x3K = 3# 步长：1S = 1# 填充：1（保持尺寸不变）P = 1 # 计算输出尺寸（应为32x32）output_size = conv2d_output_size(H, W, K, S, P) print("输出尺寸：", output_size) # 输出 (32, 32)

这个例子对应公式：

可以用它快速判断卷积层输出特征图大小。

示例 3：卷积层 + ReLU 组成简单特征提取模块

import torchimport torch.nn as nn # 构建卷积特征提取器：两个卷积层，每层后接ReLU，无池化feature_extractor = nn.Sequential( # 第一层卷积：3通道→16通道，3x3卷积核，padding=1保持尺寸 nn.Conv2d( in_channels=3, out_channels=16, kernel_size=3, padding=1 ), nn.ReLU(), # 第二层卷积：16通道→32通道，3x3卷积核，padding=1保持尺寸 nn.Conv2d( in_channels=16, out_channels=32, kernel_size=3, padding=1 ), nn.ReLU()) # 一批8张RGB图像，尺寸32x32x = torch.randn(8, 3, 32, 32) # 前向传播，提取特征features = feature_extractor(x) print("输入形状：", x.shape) # (8,3,32,32)print("特征形状：", features.shape) # (8,32,32,32)

这个例子中：

• 第一层卷积把 3 个输入通道变成 16 个特征通道

• 第二层卷积把 16 个特征通道变成 32 个特征通道

• ReLU 引入非线性

可以理解为：

原始图像 → 初级特征 → 更丰富的局部特征

示例 4：构建一个简单 CNN 分类模型

import torchimport torch.nn as nn # 定义简单CNN：特征提取 + 分类class SimpleCNN(nn.Module): def __init__(self): super().__init__() # 特征提取部分：两层卷积+ReLU+最大池化 self.features = nn.Sequential( nn.Conv2d(3, 16, kernel_size=3, padding=1), # 3→16通道，保持尺寸 nn.ReLU(), nn.MaxPool2d(kernel_size=2), # 尺寸减半：32→16 nn.Conv2d(16, 32, kernel_size=3, padding=1), # 16→32通道 nn.ReLU(), nn.MaxPool2d(kernel_size=2) # 尺寸减半：16→8 ) # 分类部分：展平 + 全连接层 self.classifier = nn.Sequential( nn.Flatten(), # 展平 [B,32,8,8] → [B,32*8*8] nn.Linear(32 * 8 * 8, 10) # 全连接输出10个类别logits ) def forward(self, x): x = self.features(x) x = self.classifier(x) return x # 实例化模型model = SimpleCNN() # 一批8张RGB图像，尺寸32x32x = torch.randn(8, 3, 32, 32) # 前向传播得到logitslogits = model(x) print("输出 logits 形状：", logits.shape) # torch.Size([8, 10])

这个模型中：

• 卷积层负责提取图像局部特征

• ReLU 负责引入非线性

• 池化层负责降低空间尺寸

• 全连接层负责输出分类 logits

输出形状为 8 × 10，表示 8 个样本，每个样本对应 10 个类别的原始分数。

如果用于多分类训练，通常配合 nn.CrossEntropyLoss()。

📘 小结

卷积层是卷积神经网络中的核心层结构。它通过卷积核在输入上滑动扫描，提取局部特征，并生成特征图。卷积层的关键思想是局部连接和参数共享：前者让模型关注局部模式，后者减少参数量并让同一特征可以在不同位置被检测到。对初学者而言，可以把卷积层理解为：用一组可学习的小型特征探测器，在图像或信号中寻找边缘、纹理、形状等局部模式，并逐层组合成更高级的语义特征。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：卷积层

新手避坑指南：用VSCode写Vue单文件组件，老是被ESLint红线警告组件名？

SLAM技术在多传感器融合中的实现与优化

CANoe Test Node CAPL脚本避坑指南：TestWaitForTimeout参数别乱设，小心无限挂起！

给WPS表格写个“外挂”：零基础JavaScript入门AirScript脚本开发

SimVision波形分析实战：从NC-Verilog仿真结果中快速定位Bug的5个技巧

还在手动保存抖音视频？这款Python神器让批量下载像喝水一样简单