news 2026/3/5 2:50:59

FFN与MLP的关系

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FFN与MLP的关系

文章目录

      • FFN与MLP的定义
      • FFN与MLP的关联
      • 结构对比
      • 应用场景差异
      • 数学表达示例
      • 总结
      • MLP实现代码
      • 代码说明
      • 代码实现
      • 参数说明
      • 使用示例
      • 关键设计点


FFN与MLP的定义

FFN(Feed-Forward Network)是一种前馈神经网络,由输入层、隐藏层和输出层组成,数据单向流动,无循环或反馈连接。MLP(Multilayer Perceptron)是多层感知机,属于前馈神经网络的一种,通常包含至少一个隐藏层,使用非线性激活函数解决线性不可分问题。

FFN与MLP的关联

MLP是FFN的一种具体实现形式。FFN作为更广泛的概念,涵盖所有前馈结构,包括MLP、CNN(卷积层+全连接层)的前馈部分等。MLP特指全连接层堆叠的FFN,是FFN的子集。

结构对比

FFN的结构可能包含多种层类型(如卷积层、全连接层等),只要满足前馈性质即可。MLP仅由全连接层构成,典型结构为:输入层 → 隐藏层(全连接+激活函数)→ 输出层。

应用场景差异

FFN可用于描述任何前馈模块,如Transformer中的FFN层(含全连接+激活函数+残差连接)。MLP通常用于传统任务,如图像分类、回归问题,强调全连接层的堆叠。

数学表达示例

MLP的隐藏层计算可表示为:
h = σ ( W x + b ) h = \sigma(Wx + b)h=σ(Wx+b)
其中W WW为权重矩阵,σ \sigmaσ为激活函数(如ReLU)。FFN的数学形式更通用,可能包含其他运算(如卷积操作)。

总结

FFN是前馈神经网络的统称,MLP是其子类。两者核心区别在于MLP严格限定为全连接层结构,而FFN可包含更复杂的模块化设计。


MLP实现代码

多层感知机(MLP)的示例

importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.datasetsimportmake_classificationfromsklearn.model_selectionimporttrain_test_split# 生成模拟数据X,y=make_classification(n_samples=1000,n_features=20,n_classes=2,random_state=42)X=torch.tensor(X,dtype=torch.float32)y=torch.tensor(y,dtype=torch.long)# 划分训练集和测试集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)# 定义MLP模型classMLP(nn.Module):def__init__(self,input_dim,hidden_dim,output_dim):super(MLP,self).__init__()self.fc1=nn.Linear(input_dim,hidden_dim)self.relu=nn.ReLU()self.fc2=nn.Linear(hidden_dim,output_dim)defforward(self,x):out=self.fc1(x)out=self.relu(out)out=self.fc2(out)returnout# 初始化模型input_dim=20hidden_dim=64output_dim=2model=MLP(input_dim,hidden_dim,output_dim)# 定义损失函数和优化器criterion=nn.CrossEntropyLoss()optimizer=optim.Adam(model.parameters(),lr=0.001)# 训练模型num_epochs=100batch_size=32forepochinrange(num_epochs):foriinrange(0,len(X_train),batch_size):batch_X=X_train[i:i+batch_size]batch_y=y_train[i:i+batch_size]outputs=model(batch_X)loss=criterion(outputs,batch_y)optimizer.zero_grad()loss.backward()optimizer.step()if(epoch+1)%10==0:print(f'Epoch [{epoch+1}/{num_epochs}], Loss:{loss.item():.4f}')# 测试模型withtorch.no_grad():outputs=model(X_test)_,predicted=torch.max(outputs.data,1)accuracy=(predicted==y_test).sum().item()/y_test.size(0)print(f'Test Accuracy:{accuracy:.4f}')

代码说明

该代码实现了一个简单的两层MLP网络,包含一个隐藏层和一个输出层。隐藏层使用ReLU激活函数,输出层使用交叉熵损失函数进行二分类任务。

模型训练采用Adam优化器,批量大小为32,共训练100个epoch。训练过程中每10个epoch打印一次损失值,最后在测试集上评估模型准确率。


两层MLP(FFN)的代码示例

代码实现

importtorchimporttorch.nnasnnclassFFN(nn.Module):def__init__(self,input_dim,hidden_dim,output_dim,dropout=0.1):super().__init__()self.fc1=nn.Linear(input_dim,hidden_dim)self.activation=nn.GELU()# 常用GELU或ReLUself.dropout=nn.Dropout(dropout)self.fc2=nn.Linear(hidden_dim,output_dim)defforward(self,x):x=self.fc1(x)x=self.activation(x)x=self.dropout(x)x=self.fc2(x)returnx

参数说明

  • input_dim: 输入特征的维度
  • hidden_dim: 隐藏层的维度(通常大于输入维度)
  • output_dim: 输出层的维度
  • dropout: 可选参数,默认0.1,用于防止过拟合

使用示例

# 初始化模型model=FFN(input_dim=512,hidden_dim=2048,output_dim=256)# 模拟输入数据 (batch_size=32, feature_dim=512)x=torch.randn(32,512)# 前向传播output=model(x)print(output.shape)# 输出 torch.Size([32, 256])

关键设计点

隐藏层维度通常设置为输入维度的2-4倍,例如Transformer中常用4*input_dim。激活函数推荐使用GELU(高斯误差线性单元),其在实践中表现优于ReLU。Dropout层可增强模型泛化能力,默认值设为0.1。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/26 22:55:42

传统开发vs快马AI:导师评价系统开发效率提升300%

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个功能完整的导师评价系统,要求:1)实现传统手工编码与AI生成代码的并行开发对比 2)在代码注释中标注各模块耗时 3)包含单元测试和性能测试代码 4)输出…

作者头像 李华
网站建设 2026/3/5 2:28:41

VS2017入门指南:从安装到第一个C++项目

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个VS2017新手引导插件,提供交互式教程,指导用户完成安装、配置和第一个C项目的创建。插件应包括步骤演示、视频教程和实时帮助功能,支持常…

作者头像 李华
网站建设 2026/3/5 2:40:53

Vim与Vi:编辑器之王的完整演进史

第一章:历史溯源与哲学根基 1.1 Vi的诞生:Unix时代的文本编辑革命 时间背景:1976年,Unix操作系统正在蓬勃发展,但当时的文本编辑器存在明显不足。早期的行编辑器ed虽然功能强大,但缺乏直观性。屏编辑器ex虽…

作者头像 李华
网站建设 2026/2/22 1:53:14

NtLogV4

public class NtLogV4 //可能无法使用 {private Queue<LogContentV4> buffer new Queue<LogContentV4>();public string LogPath { get; }private string curfilepath string.Empty;private string errorLgFile string.Empty; //定义从Exception到Fault这5个…

作者头像 李华
网站建设 2026/2/20 22:30:12

springboot基于vue的城科高校跳蚤二手商城系统设计与实现_r7e85p1m

目录已开发项目效果实现截图已开发项目效果实现截图开发技术系统开发工具&#xff1a;核心代码参考示例1.建立用户稀疏矩阵&#xff0c;用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部…

作者头像 李华
网站建设 2026/3/2 5:59:51

那个曾不可一世的甲骨文,正在被AI时代抛弃

出品I下海fallsea 撰文I胡不知 2025年12月11日上午10点17分&#xff0c;纽约证券交易所的交易员们盯着甲骨文的K线图集体沉默——这条曾被机构视为“防御性资产”的曲线&#xff0c;在开盘不到70分钟内被砸出16.1%的断崖式跌幅&#xff0c;1020亿美元市值蒸发的速度&#xff…

作者头像 李华