文章目录
- 🤔 1. 为什么(Why)
- 问题场景:表达能力不足
- 直觉理解:厨房加工
- 数学本质
- 理论支撑(通用逼近定理):
- 📐 2. 是什么(What)
- 标准 FeedForward 结构
- 为什么要"扩张-压缩"?
- SwiGLU 激活函数
- SiLU(Swish)激活函数
- GLU 变体对比
- FeedForward 与 Attention 的分工
- 参数量分析
- 🔬 3. 怎么验证(How to Verify)
- 实验 1:FeedForward 基础
- 💡 4. 关键要点总结
- 核心概念
- 设计原则
🤔 1. 为什么(Why)
问题场景:表达能力不足
Attention的局限:
- Attention 负责"信息交换"
- 但只是加权平均,都是线性操作
- 无法表达复杂的非线性变换
例子:
输入:[0.5,1.0,0.8]→ 某个词的向量 目标:学习"这个词是动词还是名词"需要的是复杂的非线性决策边界,而不是简单的线性组合直觉理解:厨房加工
🍳 类比:FeedForward就像厨房的加工过程
- 输入:生食材(768 维向量)
- 扩张:切碎、展开(