news 2026/3/19 10:32:26

resnet -> HC -> mHC

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
resnet -> HC -> mHC

经典的 ResNet 范式

过去十年,深度学习包括 Transformer)的基石是残差连接。
其公式非常简单:

其中 xl是第 l 层的输入。
这种设计最核心的优势在于 Identity Mapping 属性,它保证了信号在深层网络中传播时不会无限衰减或爆炸,是深层模型能训练起来的关键。

挑战者:Hyper-Connections (HC)

之前,字节提了一种叫 Hyper-Connections (HC) 的设计,试图打破标准残差的限制。
HC 的核心思想是:把残差流变宽。
它将残差流的特征维度从 C扩展到 n×C(n 是扩展倍数),让层与层之间有更丰富的信息通道。
其公式变为:

这里引入了三个可学习的矩阵
Hpre: 从宽残差流聚合信息输入到层。
Hpost: 将层输出映射回宽残差流。
Hres: 这是最关键的,它负责在残差流内部混合信息。

HC 的问题

虽然 HC 增加了容量,但它破坏了 Identity Mapping。
当网络层数 L 变深时,信号经过多个 Hres的连乘,会导致数值爆炸或消失。
实验表明,如果不加约束,HC 在大规模训练中极不稳定,Loss 会突然飙升,Gradient Norm 也会震荡

核心方法:mHC (Manifold-Constrained Hyper-Connections)

DeepSeek 团队提出的 mHC,核心思路非常直观:既然 HC 不稳定是因为 Hres太自由了,那我们就把它限制在一个安全的流形上。

什么是安全的流形?

mHC 强制要求残差映射矩阵 Hres必须是一个 双随机矩阵。
即满足以下条件:

  • 所有元素非负 (Hres≥0)。
  • 每一行的和为 1。
  • 每一列的和为 1。
    数学上,这个集合构成了 Birkhoff 多面体。

双随机矩阵有两个极好的数学性质,完美契合深度学习的需求:

  • Norm Preservation:它的谱范数 ≤1,这意味着信号经过它处理后,能量不会被无限放大,从而避免了梯度爆炸。
    Compositional Closure:两个双随机矩阵相乘,结果依然是双随机矩阵。这意味着无论堆叠多少层,依然保持良好的性质,恢复了类似 Identity Mapping 的稳定性。

如何实现?(Sinkhorn-Knopp 算法)

在代码实现上,如何保证一个可学习的矩阵始终是双随机的?
作者使用了 Sinkhorn-Knopp 算法。
给定一个初始参数矩阵,先取指数保证非负,然后交替进行行归一化和列归一化:

DeepSeek 在实验中迭代了 20 次 (tmax=20),就能得到满足约束的 Hres。
这也是这篇论文最精彩的理论部分:
把信号传播变成了一种特征的凸组合,既保留了 HC 的多流交互能力,又锁死了稳定性。

图8:HC与mHC矩阵的可视化对比,可以看到HC的值非常大且杂乱,而mHC的值分布均匀且稳定

系统级优化:理论很美,但速度怎么

搞过 LLM 的都知道,Memory Wall 是最大的瓶颈。
HC 将残差流扩大了 n 倍(例如 n=4),这意味着显存访问量 (I/O) 激增。
如果不做优化,训练速度会慢到无法接受。这里,DeepSeek 展现了他们强大的工程能力。

  • 算子融合
    由于 n倍的宽度,读写数据量巨大。
    作者利用 TileLang 开发了定制的 CUDA Kernel:
    将 RMSNorm 和矩阵乘法融合。
    将前向传播中的多次扫描操作融合到一个 Kernel 中。
    将 Sinkhorn-Knopp 的迭代计算融合在一个 Kernel 内部完成,避免中间结果频繁读写显存。
  • 重计算策略
    为了节省显存,作者设计了分块重计算策略。 不是每一层都存激活值,而是每 Lr层存一次输入 xl0。反向传播时,重新计算中间的 mHC 投影算子。这大大降低了峰值显存占用。
  • DualPipe 中的通信重叠
    在大规模流水线并行中,mHC 带来的额外通信量会阻塞计算。
    作者改进了 DeepSeek-V3 使用的 DualPipe 调度策略:
    把 MLP 的计算放在高优先级流上。
    把 mHC 的重计算和 Attention 的计算与通信进行更加细粒度的重叠。
    结果: 在 n=4的情况下,相比标准模型,mHC 的训练时间仅增加了 6.7%

图4:mHC 在 DualPipe 中的通信与计算重叠调度示意图

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 21:35:39

Pelco KBD300A 模拟器:12.设备仿真与虚拟响应生成

第 12 篇:设备仿真与虚拟响应生成 引言 在 Pelco KBD300A 模拟器的开发系列中,我们已实现了核心协议支持、键盘交互、宏执行、模板库、实时接收解析、报警联动和日志监控。这些功能依赖实际设备进行测试,但在现场维护或开发环境中&#xff…

作者头像 李华
网站建设 2026/3/18 8:36:32

深入浅出 SQL 注入:攻击原理、实战案例与防御避坑指南

SQL注入详解 一、什么是SQL注入? SQL注入(SQL Injection)是一种将恶意SQL代码插入到应用程序输入参数中的攻击技术,攻击成功后可以获取、篡改或删除数据库数据,甚至控制服务器。 二、攻击原理 -- 原始查询语句 SEL…

作者头像 李华
网站建设 2026/3/18 12:21:07

【建议收藏】35岁转行网络安全,行业缺口327万,附学习路线和资源

35岁转型搞安全是否还有戏? 放眼现在安全圈 00后的黑客CEO已经出场了 18岁的少年也开始穿梭于微软、谷歌、苹果各大国际公司的安全致谢榜 年轻的黑客们早已登上国际舞台,开始在世界顶级黑客大会上分享议题 40岁,对大多数人来说&#xff…

作者头像 李华
网站建设 2026/3/18 7:33:12

无人机视角土豆马铃薯洋芋苗病害检测数据集VOC+YOLO格式1539张2类别

注意图片不是十分清晰,具体看示例图片数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):1539标注数量(xml文件个数):153…

作者头像 李华
网站建设 2026/3/18 2:53:34

【效率真相】为什么越来越多的开发者选择点三电商API对接电商平台?

在电商生态日益复杂的今天,一个看似简单的需求——让企业的ERP或WMS系统能够接收和处理多平台的订单——正在成为无数开发团队耗时数月的“黑洞”。传统的对接路径要求开发者逐一入驻各电商开放平台,提交资质、等待审核、研读迥异的接口文档、处理千差万…

作者头像 李华
网站建设 2026/3/15 23:48:37

深度测评8个AI论文平台,MBA论文写作必备!

深度测评8个AI论文平台,MBA论文写作必备! AI 工具如何重塑论文写作的未来 在当今这个信息爆炸的时代,MBA 学生和科研工作者正面临前所未有的挑战。无论是撰写高质量的论文,还是应对严格的查重要求,传统方法已经难以满…

作者头像 李华