news 2026/6/15 6:31:41

人工智能之核心技术 深度学习 第一章 神经网络基础

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能之核心技术 深度学习 第一章 神经网络基础

人工智能之核心技术 深度学习

第一章 神经网络基础—公式关注公众号


文章目录

  • 人工智能之核心技术 深度学习
    • 一、感知器模型
      • 1.1 线性感知器(Perceptron)
      • 1.2 多层感知器(MLP, Multi-Layer Perceptron)
    • 二、激活函数
      • 常见激活函数对比
      • 激活函数图像(示意)
    • 三、神经网络结构设计
      • 3.1 各层作用
      • 3.2 设计原则
        • (1)隐藏层数量
        • (2)每层神经元数量
    • 四、配套代码实现(PyTorch)
    • 五、万能近似定理(Universal Approximation Theorem)
    • 总结
  • 资料关注

一、感知器模型

1.1 线性感知器(Perceptron)

结构
线性感知器是最简单的神经网络单元,由 Frank Rosenblatt 在 1957 年提出。它模拟生物神经元:接收多个输入,加权求和后通过一个激活函数输出结果。

数学表达式为:

y = f ( ∑ i = 1 n w i x i + b ) y = f\left( \sum_{i=1}^{n} w_i x_i + b \right)y=f(i=1nwixi+b)

其中:

  • x i x_ixi是第i ii个输入
  • w i w_iwi是对应的权重
  • b bb是偏置(bias)
  • f ( ⋅ ) f(\cdot)f()是激活函数(感知器中通常为阶跃函数)

原理
感知器试图学习一个线性决策边界(超平面),将两类数据分开。如果数据线性可分,感知器学习算法可以收敛到正确解。

局限性
感知器只能解决线性可分问题。经典反例是异或(XOR)问题

x₁x₂XOR
000
011
101
110

这四点无法用一条直线完全分开(如下图所示),因此单层感知器无法学习 XOR。

x1

Perceptron

x2

y

💡关键结论:单层感知器 = 线性分类器 → 无法处理非线性问题。


1.2 多层感知器(MLP, Multi-Layer Perceptron)

为了解决感知器的局限性,人们引入了隐藏层,形成了多层感知器(MLP)。

  • 结构:输入层 → 一个或多个隐藏层 → 输出层
  • 核心思想:通过堆叠非线性变换,组合出复杂的决策边界,从而拟合非线性函数(如 XOR)

XOR 的 MLP 解决方案(2 层):

  • 隐藏层有 2 个神经元,分别学习“AND”和“OR”逻辑
  • 输出层组合它们实现 XOR

x1

h1

h2

x2

y

突破:MLP + 非线性激活函数 → 可以逼近任意连续函数(万能近似定理)


二、激活函数

激活函数赋予神经网络非线性表达能力。如果没有激活函数,无论多少层,网络都等价于一个线性模型。

常见激活函数对比

激活函数公式优点缺点适用场景
Sigmoid$ \sigma(x) = \frac{1}{1 + e^{-x}} $输出在 (0,1),适合概率输出梯度消失、输出非零中心二分类输出层
Tanh$ \tanh(x) = \frac{e^x - e{-x}}{ex + e^{-x}} $零中心、比 Sigmoid 梯度更强仍存在梯度消失隐藏层(早期)
ReLU$ \text{ReLU}(x) = \max(0, x) $计算快、缓解梯度消失“神经元死亡”(负区梯度为0)默认隐藏层激活函数
Leaky ReLU$ \text{LReLU}(x) = \begin{cases} x & x > 0 \ \alpha x & x \leq 0 \end{cases} $解决 ReLU 死亡问题需调超参α \alphaαReLU 的改进版
Softmax$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} $多分类概率归一化仅用于输出层多分类任务输出层

激活函数图像(示意)

📌现代实践建议

  • 隐藏层优先使用ReLULeaky ReLU
  • 二分类输出用Sigmoid
  • 多分类输出用Softmax

三、神经网络结构设计

3.1 各层作用

层类型作用
输入层接收原始特征(如像素值、文本向量),不做计算,仅传递
隐藏层提取特征、学习数据的抽象表示(层数越多,抽象能力越强)
输出层生成最终预测(分类概率、回归值等),激活函数依任务而定

3.2 设计原则

(1)隐藏层数量
  • 浅层网络(1~2 层):适用于简单任务、小数据集
  • 深层网络(>3 层):适用于复杂任务(图像、语音),但需足够数据和正则化

⚠️ 并非越深越好!过深可能导致:

  • 梯度消失/爆炸
  • 过拟合
  • 训练困难
(2)每层神经元数量
  • 输入层神经元数 = 特征维度
  • 输出层神经元数 = 类别数(分类)或 1(回归)
  • 隐藏层神经元数:经验法则
    • 通常介于输入与输出之间
    • 常用:$ N_h = \frac{N_{in} + N_{out}}{2} $ 或 $ N_h = \sqrt{N_{in} \times N_{out}} $
    • 也可采用“金字塔”结构(逐层减少)

🔧实用技巧

  • 从简单结构开始(如 1 隐藏层,64 神经元)
  • 用验证集调参(Grid Search / Random Search)
  • 使用 Dropout、BatchNorm 提升泛化

四、配套代码实现(PyTorch)

以下是一个完整的 MLP 实现,用于解决 XOR 问题:

importtorchimporttorch.nnasnnimporttorch.optimasoptim# XOR 数据X=torch.tensor([[0,0],[0,1],[1,0],[1,1]],dtype=torch.float32)y=torch.tensor([[0],[1],[1],[0]],dtype=torch.float32)# 定义 MLP 模型classXOR_MLP(nn.Module):def__init__(self):super().__init__()self.hidden=nn.Linear(2,4)# 输入2维,隐藏层4神经元self.output=nn.Linear(4,1)# 输出1维self.relu=nn.ReLU()self.sigmoid=nn.Sigmoid()# 二分类输出defforward(self,x):x=self.relu(self.hidden(x))x=self.sigmoid(self.output(x))returnx# 实例化模型、损失函数、优化器model=XOR_MLP()criterion=nn.BCELoss()# 二元交叉熵optimizer=optim.SGD(model.parameters(),lr=0.1)# 训练forepochinrange(1000):optimizer.zero_grad()pred=model(X)loss=criterion(pred,y)loss.backward()optimizer.step()ifepoch%200==0:print(f"Epoch{epoch}, Loss:{loss.item():.4f}")# 测试withtorch.no_grad():output=model(X)print("\n预测结果:")foriinrange(4):print(f"输入:{X[i].tolist()}-> 预测:{output[i].item():.4f}(真实:{y[i].item()})")

输出示例

Epoch 0, Loss: 0.7032 Epoch 200, Loss: 0.0321 ... 预测结果: 输入: [0.0, 0.0] -> 预测: 0.0123 (真实: 0.0) 输入: [0.0, 1.0] -> 预测: 0.9876 (真实: 1.0) ...

✅ 成功解决 XOR!


五、万能近似定理(Universal Approximation Theorem)

定理:一个具有单隐藏层足够多神经元的前馈神经网络,只要使用非线性激活函数,就可以以任意精度逼近任何定义在紧集上的连续函数。

这意味着:理论上,一个隐藏层就足够强大。但实践中,深层网络更高效(用更少参数表达复杂函数)。


总结

概念关键点
感知器线性模型,无法解决 XOR
MLP引入隐藏层 + 非线性激活 → 解决非线性问题
激活函数赋予非线性能力,ReLU 是默认选择
网络结构输入→隐藏→输出;深度/宽度需平衡

资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 16:55:59

keycloak测试11.0.2 for windows

keycloak测试11.0.2PasswordClient credentialsIntrospectionAuthorization codePassword 应用于后端处理: set KEYCLOAK_HOSThttp://keycloak.demofor.com.cn/ set KEYCLOAK_REALMkeycloak-learn set CLIENT_IDchapter-1 set CLIENT_SECRET149240f3-31c6-46dc-bab4-0b53c0ee1…

作者头像 李华
网站建设 2026/6/15 4:22:44

电气设计的隐藏外挂:1:1元器件图库实战

电气高低压成套元器件 几乎每个厂家的元器件都画出来了尺寸大小电气高低压成套元器件 几乎每个厂家的元器件都画出来了尺寸大小型号都有,应有尽有,全部1:1尺寸,直接标注就OK配电柜设计现场最要命的场景:左手抓着某厂家的断路器样本…

作者头像 李华
网站建设 2026/6/6 0:22:16

珲春推荐烤肉哪家无广

珲春无广烤肉推荐:延炭乳酸菌烤肉 在珲春这座美食之城,烤肉是当地极具特色的美食之一。若想寻找一家无广且高品质的烤肉店,延炭乳酸菌烤肉是不可错过的选择。 主打健康概念 延炭乳酸菌烤肉以其独特的健康理念脱颖而出。店内用乳酸菌腌制肉类…

作者头像 李华
网站建设 2026/6/14 16:23:33

基于BP神经网络的迭代优化实现(MATLAB)

一、MATLAB实现代码 1. 网络结构定义 %% 网络参数设置 input_neurons 2; % 输入层神经元数 hidden_neurons 3; % 隐藏层神经元数 output_neurons 1; % 输出层神经元数 learning_rate 0.1; % 学习率 epochs 10000; % 迭代次数%% 权重初始化(He初始化…

作者头像 李华
网站建设 2026/6/14 16:19:14

Java分布式系统开发与实践!

我们都知道,目前大型网站跟企业级应用目前的要求都是达到“互联网三高”,这时传统的集中式系统肯定是无法满足基本的需求的,越来越多的企业的系统架构目前都是向着分布式系统的方向演进。分布式系统的特征分布式系统相对于传统的集中式系统来…

作者头像 李华
网站建设 2026/6/10 11:52:10

灵活就业简历制作难?项目导向模板下载,HR一眼认可

不同求职场景,简历误区各不相同?校招应届生分不清实习和校招简历重点,要么堆砌校园经历,要么遗漏实习成果;跨行业转行想突破壁垒,却不会衔接过往经历、突出可迁移技能;职场深耕3-5年&#xff0c…

作者头像 李华