news 2026/4/23 11:11:11

DeepSeek 提出新架构 mHC 详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 提出新架构 mHC 详解

mHC: Manifold-Constrained Hyper-Connections——把“超连接”拉回稳定轨道的残差新范式

这篇论文讨论了一个看似“简单但很关键”的问题:我们给残差流加宽、加连接(Hyper-Connections, HC)确实能涨分,但同时打破了残差里最重要的identity mapping性质,训练会不稳定、规模上不去,系统层面还会拖慢。作者提出 mHC(Manifold-Constrained Hyper-Connections),用流形约束把残差映射投影到双随机矩阵上,从理论与工程两端同时解决问题。


1. 背景:残差连接为何能稳定训练?

标准残差层的形式是:

x l + 1 = x l + F ( x l , W l ) \mathbf{x}_{l+1} = \mathbf{x}_l + \mathcal{F}(\mathbf{x}_l, \mathcal{W}_l)xl+1=xl+F(xl,Wl)

多层展开得到:

x L = x l + ∑ i = l L − 1 F ( x i , W i ) \mathbf{x}_L = \mathbf{x}_l + \sum_{i=l}^{L-1}\mathcal{F}(\mathbf{x}_i, \mathcal{W}_i)xL=xl+i=lL1F(xi,Wi)

这里的x l \mathbf{x}_lxl就是 “恒等映射” 通道,保证信号能直达深层,避免梯度爆炸/消失。


2. HC 的核心思想与问题

HC 把残差流扩成n nn条并让它们相互通信:

x l + 1 = H l r e s x l + H l p o s t ⊤ F ( H l p r e x l , W l ) \mathbf{x}_{l+1} = \mathcal{H}^{\mathrm{res}}_l \mathbf{x}_l + \mathcal{H}^{\mathrm{post}\,\top}_l \mathcal{F}(\mathcal{H}^{\mathrm{pre}}_l\mathbf{x}_l, \mathcal{W}_l)xl+1=Hlresxl+HlpostF(Hlprexl,Wl)

  • H l r e s ∈ R n × n \mathcal{H}^{\mathrm{res}}_l \in \mathbb{R}^{n\times n}HlresRn×n:残差流之间的混合矩阵
  • H l p r e , H l p o s t \mathcal{H}^{\mathrm{pre}}_l, \mathcal{H}^{\mathrm{post}}_lHlpre,Hlpost:读写矩阵

问题:多层串联后,∏ H r e s \prod \mathcal{H}^{\mathrm{res}}Hres会偏离恒等映射,信号会被放大或衰减到不可控,训练不稳定。


3. mHC 的核心思路:把残差映射约束到流形上

作者的关键直觉是:
既要跨流交互,又要保持全局“能量守恒”

于是将H l r e s \mathcal{H}^{\mathrm{res}}_lHlres约束为双随机矩阵

P M r e s ( H l r e s ) = { H l r e s ∈ R n × n ∣ H l r e s 1 n = 1 n , 1 n ⊤ H l r e s = 1 n ⊤ , H l r e s ≥ 0 } \mathcal{P}_{\mathcal{M}^{\mathrm{res}}}(\mathcal{H}^{\mathrm{res}}_l)= \left\{ \mathcal{H}^{\mathrm{res}}_l \in \mathbb{R}^{n\times n}\;|\; \mathcal{H}^{\mathrm{res}}_l\mathbf{1}_n=\mathbf{1}_n,\; \mathbf{1}_n^\top\mathcal{H}^{\mathrm{res}}_l=\mathbf{1}_n^\top,\; \mathcal{H}^{\mathrm{res}}_l\ge 0 \right\}PMres(Hlres)={HlresRn×nHlres1n=1n,1nHlres=1n,Hlres0}

好处:

  • 谱范数≤ 1 \le 11,防止信号放大
  • 闭包性:多层相乘仍是双随机矩阵
  • 几何意义:Birkhoff 多面体 = 置换矩阵的凸包,等价于“稳定混合”

4. 参数化与 Sinkhorn-Knopp 投影

mHC 仍使用 HC 的动态+静态映射机制,但在输出时做约束:

H l r e s = Sinkhorn-Knopp ( H ~ l r e s ) \mathcal{H}^{\mathrm{res}}_l = \text{Sinkhorn-Knopp}(\tilde{\mathcal{H}}^{\mathrm{res}}_l)Hlres=Sinkhorn-Knopp(H~lres)

迭代形式:

M ( t ) = T r ( T c ( M ( t − 1 ) ) ) \mathbf{M}^{(t)}=\mathcal{T}_r(\mathcal{T}_c(\mathbf{M}^{(t-1)}))M(t)=Tr(Tc(M(t1)))

  • 先指数化保证正值
  • 再交替行/列归一化
  • 论文使用t max ⁡ = 20 t_{\max}=20tmax=20

同时H l p r e , H l p o s t \mathcal{H}^{\mathrm{pre}}_l, \mathcal{H}^{\mathrm{post}}_lHlpre,Hlpost也用 Sigmoid 保证非负,避免正负抵消。


5. 训练不稳定的实证证据

下图展示 HC 在大规模训练中 loss 和梯度的异常波动:

图解:左图是 HC 相对 mHC 的 loss gap,右图是梯度范数。HC 在 12k step 处出现突增,证明残差流失控。

同时,HC 的残差映射组合出现极端放大(最大增益接近 3000):

图解:横轴是层索引,纵轴是前向行和/反向列和的最大值。HC 的增益远离 1,代表严重失衡。


6. mHC 的稳定性对比

mHC 把增益控制在 1.6 左右:

图解:mHC 的单层与复合映射增益基本围绕 1,稳定性明显改善。

热力图对比也显示 mHC 更“平稳”:

图解:HC 显示高幅度混乱区域,而 mHC 更均匀,说明残差流混合受控。


7. 系统层面的优化:不仅能训练,还能跑得快

HC 的问题不仅在理论稳定性,还有系统开销

  • I/O 读写量随n nn线性上升
  • Residual stream 变宽导致显存和通信开销大幅增加

mHC 通过三类优化降低开销:

7.1 Kernel Fusion

融合 RMSNorm + 线性投影 + Sigmoid / Sinkhorn 等步骤,减少内存访问。

7.2 Recomputing

只保存每L r L_rLr层的输入,其他中间激活通过重算节省显存:

L r ∗ ≈ n L n + 2 L_r^* \approx \sqrt{\frac{nL}{n+2}}Lrn+2nL

7.3 DualPipe 通信重叠

在 pipeline stage 间重叠 recompute 和通信,减小气泡。

图解:展示了 DualPipe 扩展后的调度方式,重点是把 FFN 的残差合并操作放到高优先级 stream,避免阻塞通信。


8. 主实验结果

27B 模型训练表现:

图解:mHC 在 loss 与梯度稳定性上接近 baseline,同时优于 HC。

性能表显示 mHC 稳定超越 baseline 和 HC:

BenchmarkBaselineHCmHC
BBH (EM)43.848.951.0
DROP (F1)47.051.653.9
GSM8K (EM)46.753.253.8
MMLU (Acc.)59.063.063.4

9. Scaling 维度验证

mHC 的优势在更大计算预算下仍然保留:

图解:左图是 compute scaling(3B/9B/27B),右图是 token scaling(固定 3B 模型)。mHC 的相对收益稳定存在。


10. 附录要点(超参 & 训练配置)

论文附录给出 3B/9B/27B 的详细配置:

  • expansion raten = 4 n=4n=4
  • Sinkhorn 迭代t max ⁡ = 20 t_{\max}=20tmax=20
  • RMSNormϵ = 1 × 10 − 20 \epsilon=1\times10^{-20}ϵ=1×1020
  • 训练 token 数:3B(39.3B) / 9B(105B) / 27B(262B)

这些超参在大模型训练中保持一致,说明 mHC 的设计具备可扩展性。


11. 总结:为什么 mHC 值得关注?

  • 从理论上保证稳定性:双随机矩阵 = “恒等映射的可控扩展”
  • 从工程上保证可落地:kernel fusion + recompute + pipeline overlap
  • 实证上稳扎稳打:loss 更稳、梯度更稳、下游表现更好

如果说 HC 是 “大胆扩宽残差流”,那么 mHC 就是 “给扩宽后的流做物理约束”,让它既自由不失控


12. 图示总览:核心结构对比

图解:左是标准残差,中是 HC(无约束混合),右是 mHC(投影到双随机矩阵流形)。mHC 的关键点是 “保留混合能力但防止信号失衡”。


本文参考自 mHC: Manifold-Constrained Hyper-Connections

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 22:25:50

Nginx--日志(介绍、配置、日志轮转)

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 一、Nginx日志介绍 nginx 有一个非常灵活的日志记录模式,每个级别的配置可以有各自独立的访问日志, 所需日志模块 ngx_http_log_module 的…

作者头像 李华
网站建设 2026/4/21 20:09:40

LTspice 仿真验证正交线圈互感对于信号幅值的影响

简 介: 本文通过LTspice仿真研究了正交电感线圈的互感特性及其对角度测量的影响。仿真结果表明:1)当两线圈存在互感时,其信号幅度会随磁场角度变化产生关联;2)谐振电容取值差异会导致两路信号输出幅度不同&…

作者头像 李华
网站建设 2026/4/23 15:33:03

multisim仿真电路图模拟场效应管工作区:深度剖析

用Multisim“透视”场效应管:从仿真波形看透工作区的本质你有没有试过在实验室里搭一个FET放大电路,结果输出信号莫名其妙地削顶?或者明明计算好了偏置电压,实测电流却总对不上手册标称值?别急——问题很可能出在你没真…

作者头像 李华
网站建设 2026/4/21 3:19:25

工业安全继电回路设计:基于Proteus元件对照表实战

工业安全继电回路设计实战:从Proteus仿真到真实世界的无缝衔接在现代工厂的控制柜中,你是否曾见过那些整齐排列、外壳标有“PNOZ”或“SR”字样的小盒子?它们不像PLC那样引人注目,也不像变频器那样复杂,但一旦急停按钮…

作者头像 李华
网站建设 2026/4/22 22:46:46

ue5 插件 WebSocket

WebSocket Plugin for Unreal Engine fab中搜索: WebSocket 2025 https://blog.csdn.net/qq_17523181/article/details/134514744 插件:2022年: https://github.com/inveta/InWebSocketClient

作者头像 李华
网站建设 2026/4/21 0:18:29

基于nodejs+Vue的二手书估价回收平台_r7iyy6nh

文章目录 技术架构概述核心功能模块特色与创新点技术实现细节 项目技术介绍开发工具和技术简介nodejs类核心代码部分展示结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 技术架构概述 Node.js与Vue.js结合构建的二手书估价回收平台…

作者头像 李华