MoE架构-平芜编程栈

🍋🍋AI学习🍋🍋

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

一、Decoder-only原始架构

在MoE中，decoder-only就是改造的前馈神经网络层。

二、MoE图解

三、前向传播过程

以Top-k (k=1 或 2)为例：

1、计算路由权重

2、选择专家

取权重最大的 k 个专家，得到索引集合 S(x)。

3、专家前向

对选中的每个专家 e：

4、加权合并

五、MoE的优势

1、参数量大，计算量可控

（1）普通 Transformer：每次前向传播都要用到所有参数，想增加容量就必须增加计算量。

（2）MoE：可以把参数拆分成 N 个“专家”，每个 token 只激活Top-k个专家（常见 k=1 或 2）。

（3）计算量 ≈ k/N × 总参数量，总参数可以做到数百亿甚至上万亿，而实际每步计算只相当于几十亿。

2、表达能力更强

不同专家可以学习不同的子任务/语义模式（例如语法、数学、代码、图像描述等）。

通过 gating 机制，每个 token 动态选择专家 →条件计算 (conditional computation)，类似于“如果输入属于某类特征，就让某些专家专门处理”

3、训练与扩展灵活

易于扩展：只需增加专家数量即可增加模型容量，而计算成本几乎不变。

模块化训练：专家可以并行分布到不同 GPU/节点，方便大规模分布式训练。

局部更新：理论上可以只更新某些专家以实现增量学习或领域适配。

4、更好的多样性与鲁棒性

由于专家学习到不同的特征空间，模型在面对分布外数据时往往更有鲁棒性。

对长尾任务更友好：稀有任务可能被特定专家捕获，而不会被主流任务“淹没”。

六、常见变体

Switch Transformer：Top-1 路由，最简单高效。
GShard：Top-2 路由 + 负载均衡 loss。
Mixtral、DeepSeek-MoE：更大规模专家、改进 gating、共享路由策略。
Shared MoE / Residual MoE：增加共享专家或残差，稳定训练。

七、总结

MoE 的前馈网络内部仍然是“升维→激活→降维”的 FFN，区别在于：

不止一个 FFN，而是多个专家并存，由门控网络为每个 token 动态选择少数专家执行，这样可以在保持计算成本可控的同时显著扩大模型容量与表示能力。

大型语言模型（入门篇）A

大型语言模型（入门篇）A一、大型语言模型的定义二、大型语言模型的工作原理1. 词语表示：分词和嵌入1.1 将分本分解为分词1.2 从分词到嵌入：捕捉含义2. 预测下一个词3. 训练数据规模的作用4. 模型参数5. Transformer架构简介5.1 核心…

李华

UVa 10568 n Group k

题目描述教授 X 要给 NNN 个学生分组完成学期任务，他希望每个小组恰好有 KKK 个学生。当无法让所有小组都恰好有 KKK 个学生时，最多可以有一个小组的学生数少于 KKK 。学生用前 NNN 个大写英文字母表示（ A 到 A N - 1 ）。我们…

李华

UniEdit：首个大型开放域大模型知识编辑基准

随着大语言模型（LLM）的广泛应用，它们在医疗、金融、教育等关键行业扮演着愈发重要的角色。然而，一个被忽视的现实是：大模型的知识并不会自动更新，更不总是准确。当模型输出过时信息、错误事实甚至自信满满的…

李华

GitHub项目推荐：基于Qwen3-VL-8B开发的开源图像描述器

基于Qwen3-VL-8B的开源图像描述器：轻量级多模态落地新选择在电商后台自动为商品图生成文案、客服系统读懂用户上传的报错截图、内容平台快速识别潜在违规画面——这些曾被视为“高阶AI能力”的场景，如今正随着轻量级多模态模型的成熟变得触手可及。过去…

李华

告别论文焦虑！2025年一大AI论文神器实测报告（附教程）_aibijiang 论文

熬夜、秃头、颈椎疼，还要被导师追着问进度——这大概就是每个大学生写论文时的真实写照。曾几何时，一篇论文从开题到完成，花费数月甚至一两年都是常事。而今天，一切都变了。竟然真的有人能在几天之内完成一篇高质量的学术论文…

李华

WordPress myCred插件关键权限缺失漏洞：CVE-2025-12362技术分析

CVE-2025-12362: myCred WordPress插件中的CWE-862权限缺失漏洞严重性：中等类型：漏洞 CVE编号： CVE-2025-12362 漏洞描述 WordPress的“myCred – 用于游戏化、等级、徽章和忠诚度计划的积分管理系统”插件在2.9.7及之前的所有版本中存在“…

李华