news 2026/5/15 10:40:21

计算机基础·cs336·MoE

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
计算机基础·cs336·MoE

MoE 混合专家

核心思想

混合专家模型(Mixture of Experts,MoE)是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务方面,从而实现更高效、准确的预测。

优势

  • 模型索然很大,但是推理速度快。例如同样的FLOPs,由于只激活少数专家,实际激活参数量比较低,推理速度比同样参数的密集模型快,而且可以得到更好的结果
  • 训练起来不像密集架构那样全部参数都要训练,只有少数专家激活并参与训练
  • 分布式架构:专家可以分配到不同设备上去。

劣势

  • 理论上分布式,在缺乏分布式节点和计算设备时比较鸡肋
  • 训练不稳定:路由算法往往不可微分,路由算法的学习不稳定。

MoE的基本原理

MoE的架构

  • 多个不同的MLPvs 多个不同的 Transformer头
  • 注意:为了确保参数量不会爆炸,MLP的d_ff通常会大幅度减小,甚至比d_model还小

路由算法

  • 基本分类:为每一个token选专家vs 为每一个专家选token
  • 通常是为每一个token选专家:具体策略可以分类为 随机选择,RL算法,TOPK,哈希法。

TOPK算法

  • 基本思想:将路由器认为是一个简单的MLP,给定token x,映射为专家选择的概率s,选择前K个专家。
  • 将专家计算的结果和选择概率加权求和与原输入残差链接。

路由选择函数的训练目标(损失函数)

  • 核心思想:避免只选择特定专家和设备
  • fif_ifi:统计所有batch/设备中实际选择专家i的比例
  • PiP_iPi:统计所有batch/设备中路由器选择专家i的概率(想选择专家i的比例)
  • 惩罚路由器想选择专家i且实际选择专家i的情况

  • 直接对于softmax分数进行显示调整的方法:
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 6:06:42

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

“每个参数大约对应 20 个 token”(常被叫作 Chinchilla 比例)并不是一条“宇宙定律”。 你看到 LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了。 尤其从 Llama 3 开始,论文里甚至明确承认…

作者头像 李华
网站建设 2026/5/14 21:48:47

HTTP Content-Type

HTTP Content-Type 引言 HTTP协议中的Content-Type头字段是Web服务器与客户端之间进行数据交换的重要机制。它定义了服务器发送给客户端数据的类型,允许浏览器或其他客户端应用程序正确地处理和展示这些数据。本文将详细介绍HTTP Content-Type的用途、类型以及在实际应用中的…

作者头像 李华
网站建设 2026/5/11 2:09:54

VSCode 下如何检查 Vue 项目中未使用的依赖?

VSCode 下如何检查 Vue 项目中未使用的依赖? 文章目录 VSCode 下如何检查 Vue 项目中未使用的依赖?1. 使用 depcheck 工具(推荐)安装和使用:配置(可选): 2. 使用 npm-check 工具3. V…

作者头像 李华
网站建设 2026/5/10 23:04:04

SSM计算机毕设之基于ssm的网上手机商城系统基于SSM的手机商城(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/13 11:09:43

开题报告 雅韵古诗词系统python爬虫

目录 雅韵古诗词系统Python爬虫简介爬虫技术实现要点数据处理与存储反爬策略应对应用场景扩展 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 雅韵古诗词系统Python爬虫简介 雅韵古诗词系统是一个基于Py…

作者头像 李华
网站建设 2026/5/10 21:38:54

SSM计算机毕设之基于SSM的疫情健康上报管理系统行程上报、健康上报(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华