从“吸管吸海“到“原子级突破“：大模型开发的硬件革命来了，程序员必看！-平芜编程栈

编者按：最近在南京大学召开的 Nature 原子制造国际会议上，结识了本科毕业于南京大学、尽情在北美游历了一番后加入上海交大机械与动力工程学院的帅哥教授刘智崑。智崑给人总是一幅激情四射、敏锐激越的style，表达的观点新潮而又接地气。他大概是那种致力于变革性地强化学术界和工业界之间vdW联接界面的后生代！

1.引言

人工智能 (Artificial Intelligence, AI) 作为一种特殊的产品与商品，人类对它的需求具有独特性。这不仅表现在人类对更高智能的渴望是无止境的，且这种需求是极度苛刻的。人类身处相互竞争的社会中，每个人都希望拥有最强的智能工具，哪怕只是比其它工具强那么一点点。

更特别的是，人工智能 AI 具有一种“自催化”的能力。这是说，作为工具，它能加速自身的迭代进化，很有一些人类大脑的那般模样。这种迭代，表现为优势智能体呈现非线性爆发式发展，并快速淘汰稍显落后的智能体。因此，人们对更强人工智能的需求是永不知足的。

然而，是什么在支撑这种爆发式增长呢？也即是说，在支撑与供给一侧，是什么限制了人们获得越来越好的人工智能呢？

其中一个重要的物理瓶颈，就是下面要介绍的“存储墙困境”。

读者很快就能看到，要挣脱这一困境，高端制造业，具体而言就是围绕 AI 芯片系统的高端制造业 (统称芯片制造)，需要新的制造模式、新的赛道！

2. AI 模型与存储墙困境

2.1. AI模型面临的困境

主流的 AI 大语言模型 (AI large language models, LLMs)，都是基于 Transformer 架构。该架构的运作方式，决定了其对硬件资源的特殊需求。观察 Transformer 的结构，如图1所示，我们可以看到，它主要由编码器(Encoder) 和解码器 (Decoder) 组成。其核心组件包括：(a) 多头自注意力机制(Multi-Head Attention) 和 (b) 前馈神经网络 (Feed-Forward Networks) [1]。在数学本质上，这些组件的运行，依赖于大规模的矩阵乘法运算。当模型进行推理或训练时，每一个输入的 Token，都需要被转换成高维向量，并与模型中数以千亿计的参数权重进行复杂的矩阵运算。特别是这个“注意力机制”，它要求模型在处理每一个词时，都要回顾上下文中的其他词，以计算相关性 (即 Query, Key, Value 的交互)。这意味着，为了生成哪怕一个简单的字符，硬件都需要在极短的时间内访问并搬运海量的参数数据。

这种架构，在算法层面解决了长距离依赖的问题，赋予了 AI 理解上下文的能力。但是，为了这两个目的而付出的代价是巨大的：它将计算密集型任务，转化为极度依赖内存带宽的数据密集型任务。这是典型的“芝麻西瓜”之矛盾。

图 1. Transformer 架构，作为一种基于自注意力机制的深度神经网络。它是目前大语言模型的通用底层架构 [1]。

这种对资源的消耗，使得 Transformer 模型始终处于一种“饥渴”状态。很多环节实际上是在白白“刷新”而耗费算力，以等待数据传输完成。

不过，AI 学界那些既极度勤奋又绝顶聪明的人们，开始试图寻找新途径。

随着 Scaling Law 生效，这些 AI 人们发现，模型越大、参数越多，则智能涌现 (intelligence emergence) 的效果越好。这，直接导致了模型参数量从早期的几亿，爆炸式地增长至万亿级别。而这个所谓的早期或晚期，无非是几年时间而已。对于存储容量而言，必须有足够大的显存，来一次性地装载这些庞大的权重矩阵。否则，模型根本无法运行。

更为关键的，是带宽。尤其是在生成式任务 (如GPT系列) 中，模型是自回归的，即每次生成一个新词都需要重新调用整个模型的权重进行计算。从这个意义上，系统似乎并不“智能”呢，至少不如自我感觉上的人脑智能^_。得益于 Tensor Core 等专用计算单元的飞速发展，现代硬件在处理大规模算术运算时，速度已显著提升。许多计算任务，仅需寥寥数个时钟周期即可完成。然而，如果内存带宽不足，系统运行就犹如用一根细的吸管去吸干大海，无论 GPU 的计算核心 Tensor Core 有多快，它们都会因为等待数据从内存传输过来而处于空闲状态。正如阿姆达尔定律 (一个关于提升程序运行速度的定量公式) 所述：系统的整体速度，不再取决于计算单元有多快，而是受限于最慢的那个环节——也就是内存数据的传输速度。

图 2. 硬件的峰值算力增长，显著快于内存带宽的增长。如此，形成了算力与带宽之间巨大的“剪刀差”[3]。

2.2. 所谓“存储墙”

如此，就引出了著名的“存储墙”(Memory Wall) 危机。这一概念，最早在 1995 年由 Wulf 和 McKee 提出[2]，如今已成为制约 AI 发展的核心痛点。

依据 Gholami 等人的研究数据[3]，如图 2 所示。在过去的二十年里，服务器硬件的峰值算力 (floating point operations per second, FLOPS)，以每两年约 3 倍的速度狂飙，累计增长了惊人的 60,000 倍。相比之下，动态随机存储器 (dynamic random access memory, DRAM) 的内存带宽增长，却步履蹒跚，每两年仅增长 1.6 倍，同期总增长约 100 倍。而互连带宽的增长，更为缓慢，约30倍，正如老牛拉磨，而旁边却是呼啸而过的京沪高铁。

这种算力与带宽之间巨大的“剪刀差”，导致极度不平衡的系统瓶颈。更为严峻的是，AI 模型的需求增长速度，远超硬件摩尔定律。Transformer模型的训练算力需求，以每两年 750 倍的速度爆炸式增长，模型参数量也以每两年 410 倍的速度扩张。摩尔定律所预言的、单 GPU 内存容量的增长，却仅为每两年 2 倍左右。事实上，这些年，摩尔定律也不准了，实际进展已经落后于摩尔定律的预言。

这种供需关系的极度错配，使得“存储墙”问题在大模型时代被急剧放大。再说一遍，对于依赖自回归生成机制的 Decoder 模型 (如GPT系列)，其算术强度往往较低，意味着每次微小的计算都需要伴随大量的数据搬运。这种架构上的错位，导致了严重的资源浪费。最新的统计数据[4] 使得问题更为严峻：在当下的传统架构中，高性能处理器甚至可能有超过 60 % 的时间处于等待数据的“空转”状态，以等待那数据搬运过程。更糟糕的是，数据搬运不仅耗时，还极其耗能：将数据从内存移动到计算单元的能耗，往往比执行浮点运算本身的能耗高出“几个数量级”。

这种因存储系统无法匹配处理器数据吞吐需求而导致的性能瓶颈，不仅限制了计算速度，更成为制约当前 AI 大语言模型能效比和规模拓展的关键物理障碍。

2.3. HBM 的极限拉扯

为克服这一困难，AI 相关的学界、业界，开始尝试从架构和封装技术上寻找突破口。其中最核心的解决方案，便是高带宽内存 (high bandwidth memory, HBM) 技术。HBM 的设计初衷，是为解决传统 DDR 内存 (double data rate memory) 带宽不足的问题。它通过硅通孔(through silicon vias packaging, TSV) 技术，将多个 DDR 芯片垂直堆叠在一起，如图 3 所示，从而在极小的物理空间内实现巨大的存储容量和带宽。与传统的 GDDR (graphics double data rate) 显存相比，HBM 采用了极宽的接口设计(通常为 1024 位)。虽然单引脚的时钟频率较低，但通过并行传输海量数据，系统实现了极高的总带宽。

这种架构，不仅显著提升了数据吞吐量，还通过降低工作电压和缩短信号传输距离，有效提高了能效比，使其成为高性能计算和 AI 加速器的核心组件。

图 3. 浅蓝色部分就是高带宽内存(HBM) [5]。

为进一步满足未来万亿参数模型训练与推理对极致性能的渴望，HBM 技术正经历着从架构到封装工艺的深刻变革，旨在突破现有的带宽与容量[6]。如下所列，乃笔者了解到的几个层次之挑战：

(1) 目前的 HBM3E (美光Micron公司为 AI 研发的第三代专用高端 HBM)，已能实现惊人的性能。单颗芯片带宽超过1.18 TB/s，相较于前代提升显著，且能在8层堆叠下提供 24 GB 容量、或在 12 层堆叠下实现 36 GB 的超大容量。

(2) 下一代 HBM4 (第四代 HBM)，则计划引入更为激进的变革。其接口位宽，预计将从目前的 1024 位翻倍至 2048 位，从而在降低单引脚频率压力的同时，将总带宽推升至 1.65 TB/s、甚至 2 TB/s 以上。

(3) 封装技术，则计划从微凸块(Micro-bump) 向混合键合(Hybrid Bonding) 跨越。传统的微凸块技术，在处理更小间距 (Pitch) 和更高层数时，面临电阻升高和散热困难的物理局限。而混合键合技术，通过铜-铜直接连接，消除了凸块间的微小缝隙，不仅大幅降低垂直互连的电阻和寄生电容，还有效减小了芯片的堆叠高度。这些改进，使得在严格的封装厚度限制 (如 720 μm) 下，可以实现 16 层、甚至更高的 DRAM 晶粒堆叠，从而使得单颗HBM 容量有望达到 48 GB。

(4) 最后，为应对随之而来的功耗挑战，未来的 HBM 基底裸片，将采用先进的逻辑工艺制造。这一技术，能将核心电压从 1.1 V 降低至 0.8 V 以下，从而抵消带宽增加带来的功耗上升，并显著改善密集堆叠带来的散热问题。

然而，随着 HBM 堆叠层数迈向 16 层以上，硅通孔 TSV 技术在晶圆减薄良率及稳定性上面临物理极限。在此背景下，单片 3D DRAM (Monolithic 3D DRAM) 作为一种颠覆性技术路径，应运而生。它一改传统 DRAM 单纯依赖平面特征尺寸微缩的发展路径，借鉴 3D NAND 闪存的成功理念，转向垂直方向维度扩展：在同一片晶圆上，连续制造多层存储单元——概念上简单粗暴，制造上崎岖艰难！

这一路径，与 HBM 存在本质的区别。HBM 主要是一种系统级封装技术。它依靠微凸块和硅通孔 (TSV) 技术，将多个独立的、已制造完成的 2D DRAM 裸片进行物理堆叠。这一堆叠，受限于TSV 微米级尺寸限制和封装总高度限制。而单片 3D DRAM，则是晶体管级的工艺集成。其中层与层之间的互连，采用光刻定义的纳米级通孔，彻底摒弃了庞大的TSV 和复杂的键合工艺，从而实现极高的垂直互连密度和更优的寄生参数控制。读者不妨稍微去了解一下这些变革进程，便能感觉到其中巨大的潜力！

图 4. 单片 3D DRAM (Monolithic 3D DRAM)。(a) 垂直字线；(b) 垂直位线[7]。

在具体的技术实现方案中，水平1T1C (one-transistor, one-capacitor) 架构被寄予厚望。如图 4 所示，通过垂直字线 (vertical wordline, VWL) 或位线 (vertical bitline, VBL) 的微观配置，该架构在极小空间内实现了高密度存储。据文献[7] 论述，以128 层堆叠为例，VWL 和 VBL 配置的存储密度分别达 1.3 GB/mm² 和 1.05 GB/mm²，较先进的 1b 节点 2D DRAM (约 0.455 GB/mm²) 提升约 2.3 至 2.8 倍。这种设计，不仅打破了传统平面微缩的物理瓶颈，还通过 CUA (computer use agent) 异构集成技术，将逻辑电路置于存储阵列下方，大幅缩短数据路径。相关模拟读写能耗仅为 3.37 - 3.54 pJ/bit，令人印象深刻。基于该文作者的假设性设计与模拟推导显示，在 Llama2-7B [a transformer-based language model developed by Meta with 7 billion parameters, trained on 2 trillion tokens with a 4,096-token context length] 训练任务中，这种基于 H1T1C 的 AI 加速器较基准系统，可实现超 2 倍、甚至近 2.5 倍的吞吐量提升。这一势头，为未来突破“内存墙”和显存容量瓶颈，提供了一条革命性的硬件演进路径。

这种深刻变革，必定且已经给当下芯片制造技术带来难以逾越的技术壁垒。按照那些致力于在芯片产业摸爬滚打的人们之性情，寻求新的制造业举措，范式也好、赛道也罢，只管向前！

其中之一大一点即燃的赛道，就是“原子级制造”。本公众号号主Ising老师，最近才写过一篇科普文字《[原子级加工之团簇模式]》，其中亦从不同视角提到这一主题。

本文不打算将原子级制造渲染个遍，只是针对 AI 的呼唤，摘取两段“沧海桑田”小片段，放在这里给读者茶余饭后观摩、把玩。

3.原子制造之混合键合

第一段小片段，即混合键合 (hybrid bonding)。

上文论及 HBM 封装技术时，已提及混合键合这一概念。混合键合是一种革命性的无凸块 (Bumpless) 三维集成互连技术。它摒弃了传统的焊料介质，直接利用介质层之间的分子引力来实现晶圆或芯片间的垂直堆叠。而电极间的连接，则借助铜金属间的原子扩散来实现。此所谓“混合”之键合！

该技术的核心，在于同时形成两种界面的键合：

(1) 一是介质层与介质层之间的键合。主要在室温下通过范德华力或氢键形成，以提供机械支撑和电气隔离。利用极度原子级光滑的抛光平面，一些研发单位可以实现大晶圆级的介质键合。

(2) 二是作为电极的铜与铜之间的金属键合。借助后续热退火工艺，促使铜原子扩散融合，实现高效的电信号传输，如图 5 所示。

这种独特的“混合”连接方式，极大地缩短了互连路径，降低了电阻和电感寄生效应，并使得互连密度能突破传统封装的极限，成为高性能计算和异构集成的关键赋能技术。

图 5. 混合键合过程，包括了介质层与介质层之间的键合、铜- 铜金属的键合[5]。

3.1. 精度、精度

在这一工艺中，化学机械抛光 (chemical mechanical polishing, CMP)，是至关重要的一环。界面原子键合，不仅需要实现表面的全局平坦化，还必须精确控制铜焊盘相对于介质表面的凹陷以及整体的表面粗糙度。理想的混合键合界面，要求介质表面极其平滑，而铜焊盘则通常需要微小的凹陷或略微的突出，以便在后续的热退火过程中利用铜的热膨胀特性实现紧密的金属键合。

这是一对矛盾：既要平滑，又要凹陷，还都要原子级！这种对微观形貌的极致控制，直接决定了键合的良率和电气性能，构成了混合键合工艺的核心挑战。

在此背景下，随着对 I/O 密度的需求呈指数级增长，互连间距 (pitch size) 正在从微米级向亚微米级迅速微缩。这一发展，对铜凹陷的控制提出了更为严苛的“原子级”要求。相关研究数据及图表显示，接触面积与间距及凹陷深度之间，存在着紧密的制约关系。以当前“混合键合”的一个典型标准为例：当间距为5 微米时，通常可容忍约 5 nm 的铜凹陷。此时，工艺窗口相对较宽。然而，当间距进一步缩小，铜焊盘体积随之减小，热膨胀带来的突起量将不足以填补较大的凹陷。由简单的计算可推估，当间距缩小 10 倍时，为保证足够的接触面积，铜的凹陷深度须减小约 1 个数量级。这意味着在亚微米间距下，铜凹陷必须控制在很小的范围内(例如 2 nm 以内)，甚至是接近原子级的高度差。

为应对这一挑战，制造界在混合键合的原子级制造方面，已取得很大进展。以相关研发机构 IMEC 为例 [8]，其发展的2 µm 间距Die-to-Wafer (D2W) 键合工艺，展示了卓越的表面控制能力。即便在经历了晶圆减薄和等离子切割等极具挑战性的后续工艺步骤后，IMEC 依然能通过引入创新的无机表面保护层技术，成功避免铜表面的氧化和损伤，将铜凹陷稳定保持在约 2 nm 水平。这一数值，与初始 CMP 工艺得到的 1.5 nm 相当，证明通过先进的工艺整合，可以在复杂的制造流程中维持键合表面的原子级质量，展示了亚微米级互连的可能。

除了对铜焊盘形貌的精准把控，表面粗糙度的控制同样是决定键合质量的关键因素，且已达到原子级水平。最新的综述与实验数据指出[9]，为确保无孔洞的高质量键合，绝缘介质层(如 SiO2或 SiCN) 的表面粗糙度，通常需要严格限制在 0.5 nm 以下。在一些先进制程探索中，通过优化 CMP 工艺，甚至可实现小于 0.2 nm 至 0.3 nm 的表面粗糙度。例如，针对 SiCN 介质层的 CMP 技术，在工艺优化后，得到的样品其表面粗糙度可稳定在 0.4 nm左右。这种极致的平滑度，对于防止界面空洞的形成、确保气密性、提高键合强度，至关重要。而这种极致的平滑度，令人惊叹不已，毕竟一个原子也就 0.2 nm 的大小，标志着半导体制造已全面进入原子级精准把控表面形貌时代。

3.2. 量测、量测

然而，面对这种逼近原子级制造精度的挑战，传统的量测手段已难以满足大规模量产的需求。传统的原子力显微镜 (atomic force microscopy, AFM) 虽然精度高，但扫描速度过慢，无法作为在线量测工具。另一方面，光学检测手段，在垂直分辨率上又往往力不从心。

为解决这一瓶颈，Nearfield Instruments 推出的 QUADRA 系统，代表了未来的方向之一[10]。这是一种变革性的、高通量扫描探针量测系统。它创新性地采用了4 个微型AFM 探头并行工作的架构，如图 6 所示。这种设计，使得QUADRA 能够在保持原子级分辨率的同时，成倍地提高检测速度。实验证明，这一技术在用于混合键合量测 Cu 凹陷和表面粗糙度时，能将量测速度提升到每小时 10 片晶圆片的水平。

这一效率，虽然还有些差强人意，但作为半导体技术发展催生原子级制造设备的一典型案例，依然具有显示度。诚然，仅仅是 QUADRA 系统显然是不够的，适合原子级制造的表征技术，任重而道远！

图 6. Nearfield Instruments 的4 探头 AFM 设备 QUADRA [10]。

4.原子制造之Monolithic 3D DRAM****示例

第二段小片段，是存储器制造。

原子级制造在 AI 芯片这一领域突飞猛进之前，预计须克服动态随机存取存储器 DRAM 技术向三维垂直堆叠架构演进所遭遇的巨大壁垒。事实上，原子级制造技术，的确也展示出不错的势头，正成为实现下一代高密度存储的一大核心驱动力。

以 Monolithic 3D DRAM 中电容器的集成制造为例。这一复杂过程，涉及了极为精密的 12 步工艺流程 [11]，如图 7 所示。

制造流程，始于 Si/SiGe 超晶格叠层的外延生长。随后，通过对 SiGe 层的回蚀形成初始沟槽，并利用原子层沉积 (atomic-layer deposition, ALD) 填充 SiO2作为支撑介质。紧接着，通过原子层蚀刻 (atomic-layer etching, ALE)，回蚀 SiO2并在随后的步骤中对 Si 层进行回蚀，从而为电极形成创造空间。在形成 TiN 接触后，工艺进入更为精细的阶段，包括 SiN 的 ALD 填充与 ALE 回蚀、SiO2的再次 ALE 回蚀，以及 SiN 去除这关键一步。最终，在这一极度复杂的纳米结构中，依次通过 ALD 技术沉积 High-k 介质层、TiN 电极层以及金属钨，完成电容器的构建。

整个流程包含了 6 次 ALD 沉积和 6 次各向同性选择性蚀刻。每一步，都要求极高的精度，以确保垂直堆叠结构的完整性与电学性能。

以上制程步骤的关键，在于“保形性”与“选择性”。这是 ALD 和 ALE 技术在 3D DRAM 制造中不可替代的原因。与此同时，随着集成密度不断攀升，器件结构内的空间越发狭小。越是这种极端的空间限制，就越需要依赖 ALD 和 ALE 技术。对此感兴趣的读者，可点击御览科普文《原子级加工之团簇模式》，以作稍微详细一些的了解。

图 7. Monolithic 3D DRAM 中电容器制备的 12 步工艺流程 [11]，整个流程包含了 6 次原子层沉积和 3 次原子层刻蚀。

与之相比，传统的沉积与蚀刻技术，在面对 3D 集成所需的侧向加工时，已逼近物理极限、难以为继。此情此景，原子级制造技术不可以再“犹抱琵琶半遮面”，必须走到前台开始“朗朗式”的 (piano) 演出了^_。

原子级制造工艺的成败，除了取决于技术架构外，也取决于基础材料：即作为器件核心骨架的 Si/SiGe 超晶格结构质量与一致性。Si/SiGe 超晶格结构，是一种通过精细的外延生长工艺、在晶圆上交替堆叠 Si 与 SiGe 纳米薄膜而形成的“千层蛋糕”式多层结构。它的核心作用是利用 SiGe 层作为“牺牲层”，在制造过程中将其选择性腐蚀掏空，从而释放出横向悬空的Si 层作为导电通道。

依据关于 200 周期 Si/SiGe 超晶格生长的研究分析[12]，在 Si 衬底上构筑总厚度达 8.9 微米的超多层结构，是一项极具挑战性的工程。实验数据揭示出至少如下几点对工艺精度的严苛要求：

(1) 为保障最终器件性能，Si 沟道层的厚度必须被精确锁定在 36.7 ± 2.1 nm 之间，其厚度标准差需控制在 0.77 nm 。

(2) 作为牺牲层的 SiGe 层厚度则需维持在约 8.8 nm。

(3) 在组分控制上，尽管目标 Ge 浓度为 20 %，实际生长中仍需将波动控制在 19.1 ± 1.7 % 范围内。这种优于 1 % 的浓度均匀性，是确保后续高选择比蚀刻工艺窗口的关键。

(4) 整个制造过程中的热预算管理，亦至关重要。长时间在 675 °C 高温生长，会诱发超晶格中 Ge 原子偏析，导致底部界面宽度展宽至约 4.05 nm (顶部为 3.77 nm )。

综上所述，这种对超晶格生长过程中原子级偏差的极限控制，构成了后续 12 步复杂制造工艺得以实施的基石。

当然，Monolithic 3D DRAM 在尺寸和材料品质上要求如此高精，在立体结构搭建上要求如此纷繁复杂，其制造过程对量测技术提出的更高的、颠覆性挑战，迫使工业界必须放弃传统的表面计量思维。根据 ASML 的先进量测技术报告分析[13]，传统的 CD-SEM 和可见光光学量测，主要局限于表面成像。面对动辄数百层、厚度达数微米的 3D 堆叠结构，这些技术无法触及深埋于体内的结构特征。例如，侧向凹槽的深度或隐藏的空洞表征鉴定，就是棘手问题。这里，不仅仅是精度的提升，更是探测物理模式的根本转变。

为了“看穿”这些不透明的复杂结构，整个芯片制造行业正在转向高能物理手段：利用高着陆能量的扫描电子显微镜，通过背散射电子对材料原子序数的敏感性，实现深层内部结构(如金属填充或空腔)的穿透式成像和量测，从而在不破坏样品的前提下精准监控侧向蚀刻的进程。同时，软X 射线散射测量，作为一种新兴技术，利用其极短的波长 (10 – 20 nm) 穿透性(也就是 X 射线对穿越深度的敏感性)，能重建复杂的 3D 轮廓和层间对准误差。

此外，针对晶圆键合界面，也必须采用对硅透明的红外 (IR) 显微术，甚至利用声波 (scanning acoustic microscopy, SAM) 来检测深处的微小缺陷。量测技术，已从单纯的“表面拍照”，进化为对芯片内部进行“无损断层扫描”般深度感知。

**5.**结语

作为这篇简短而“匆忙”的短文结尾，笔者愿意和读者们一起缅怀物理学家理查德·费曼。他六十多年前曾作出那句著名的预言“There’s plenty of room at the bottom”，指出了微观尺度下物理操控的无限可能。然而，与费曼那种以“技术可行性”为中心的视角不同，本文的鲜明特点在于，确立以“需求”为中心论述“原子级制造”的必然逻辑。

人类对“智能”永无止境的渴求，正推动着AI 大模型参数向万亿级狂奔。这种对算力与存力的极致贪婪，一方面可能让一些读者感觉是“傻大粗”式硬算，使得在传统计算架构中已岌岌可危的“存储墙”危机更为严峻；另一方面，为了延续智能的进化，半导体行业目前似乎又别无选择，必须从二维平面微缩被迫转向三维空间堆叠与原子尺度重构。无论是未来 HBM 的混合键合，还是单片 3D DRAM 的精密原子层沉积，都不是为了探索技术的无限可能，而是因为只有逼近底部的原子世界，才能承载人类对人工智能日益膨胀的野心。

在这样的大趋势下，当前产业界最急迫的需求，已不仅仅是制造工艺的突破，而是发展多种、不同能力的先进量测技术。原子级精度与复杂的 3D 深孔结构，给工业生产带来了前所未有的良率挑战。在实验室里造出一颗芯片是一回事，在工厂里大规模、高良率地生产千万颗芯片则完全是另一回事。很显然，在生产流程中显著增加量测的比重，用“火眼金睛”去透视那些深埋在多层堆叠下的原子级缺陷，将变成 AI 芯片制造难以绕过的万水千山。前文提到的多探针 AFM 系统与高能电子束量测，代表着量测技术的范式转变之初端。只有当具备穿透力的高通量量测技术与原子级制造工艺并驾齐驱，才能确保每一颗流向市场的 AI 芯片都经得起考验，真正满足智能时代对算力基座的庞大需求。

最后指出，本文描述可能多有夸张、不周之处，敬请读者谅解。成熟芯片制造，就是大工程了，再来个极致算力的 AI 芯片制造，非极尽原子级制造之能事，大概难以承载。谨以此文，向“原子级制造”新赛道致敬！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这个AI Agent工具让中小企业效率提升40%，零代码开发，程序员都惊呆了

从“吸管吸海“到“原子级突破“：大模型开发的硬件革命来了，程序员必看！

1.引言

2. AI 模型与存储墙困境