1.模型结构
主要是让MoE部分和Dense部分并行起来,解决专家间的路由与数据传输成为性能瓶颈。
2.优势
2.1 计算-通信重叠扩展
ScMoE架构的核心突破在于计算-通信重叠机制。通过在专家模块间引入 shortcut 连接,模型能够在等待数据传输的同时并行执行部分计算任务。这种设计将传统MoE中串行的"路由-传输-计算"流程重构为并行处理,实测显示通信等待时间减少40%以上,显著提升了硬件资源利用率。
2.2 动态计算预算分配
配合ScMoE架构,零计算专家机制。该机制根据输入token的重要性动态分配计算资源,在保持5600亿总参数量的同时,仅激活186-313亿参数(约5-6%)。通过PID控制器调节专家偏置,确保每token平均激活约270亿参数,在精度与效率间取得完美平衡。
3. Zero Expert
主要解决MoE的负载均衡与计算效率问题,当某些Expert被选中负载太高时,多余的tokens被路由到Zero Expert,zero Expert不进行计算操作。这样可以平衡模型的激活参数量,以及scmoe部分的计算量与dense部分计算量均衡。