一文搞懂大模型预训练-平芜编程栈

一、预训练的核心定义：大模型的“无师自通”

首先要明确，大模型预训练不是传统的“监督学习”——不需要人工标注海量的“输入-输出”对，而是一种自监督学习过程。

简单来说，预训练就是让模型在海量的未标注文本数据里“自学”：模型会从数据中自动挖掘监督信号，比如“根据上下文猜缺失的词”“根据前文预测后文”，通过完成这类任务，潜移默化地掌握语言规律、语义关联和世界常识。这个阶段的模型不针对任何具体任务，只练“基本功”，就像人小时候读万卷书，不是为了考试，而是为了积累知识和语感。

二、预训练的核心目标：两个能力的双重塑造

预训练的最终目的，是让模型具备两大通用能力，这是它后续解决各类任务的基础：

通用语义表示能力
模型要能理解文本的深层含义，而非简单的字面匹配。比如它要知道“苹果”在“我吃了一个苹果”里是水果，在“我买了一台苹果”里是电子产品；要能识别“他打了球”和“球被他打了”是同一个意思，这就是语义层面的理解。
世界知识储备能力
海量文本里藏着无数常识和事实，比如“地球是圆的”“水在0℃会结冰”“北京是中国的首都”。预训练的过程，就是让模型把这些知识“记”在参数里，形成自己的知识体系，为后续回答问题、生成内容提供支撑。

三、数据准备：预训练的“食材”，决定模型下限

预训练的第一步，也是最容易被忽视但至关重要的一步，就是数据准备。模型就像厨师，食材的质量直接决定菜品好坏，具体分为四个环节：

数据来源：兼顾广度与多样性
预训练数据需要覆盖足够多的领域和体裁，常见来源包括公开的书籍、学术论文、百科全书、新闻资讯、合法合规的网页文本等。单一领域的数据会让模型“偏科”，比如只喂新闻数据的模型，很难写好小说。同时要注意数据的版权和合规性，规避隐私信息和侵权内容。
数据清洗：去芜存菁
原始数据里有大量“噪音”，必须清洗后才能使用：一是去重，过滤重复的文本片段，避免模型反复学习相同内容导致过拟合；二是去噪，删除低俗、错误、无意义的内容（比如乱码、广告弹窗文本）；三是过滤低质量文本，比如逻辑混乱、语句不通的内容，这类文本会误导模型学习错误的语言规律。
文本预处理：统一格式标准
清洗后的文本需要标准化处理：首先是分词，也就是把连续的文本切成模型能识别的最小单位——token。中文可以切成字或词，英文常用子词分词算法（比如BPE、WordPiece），既解决了生僻词问题，又能控制词汇表大小；然后是归一化，比如统一大小写、去掉无意义的特殊符号。
格式转换：变成数字序列
模型只能处理数字，所以需要给每个token分配唯一的ID，把文本序列转换成数字序列。同时，还要添加特殊token，比如[CLS]（表示句子开头）、[SEP]（表示句子分隔）、[MASK]（表示被掩盖的token），这些特殊token是后续预训练任务的关键。

四、模型架构：预训练的“骨架”，主流选择是Transformer

预训练的模型架构，直接决定了模型的学习方式和适用场景。目前所有大模型的核心架构都是Transformer，它的自注意力机制能高效捕捉文本的长距离依赖，远胜于传统的RNN、CNN。根据注意力机制的方向，Transformer衍生出三种主流架构：

Encoder架构（双向注意力）
代表模型是BERT。这种架构的注意力机制是双向的，模型能看到一个token的前文和后文，擅长理解类任务。预训练时常用掩码语言模型任务，适合做文本分类、命名实体识别等任务。
Decoder架构（单向注意力）
代表模型是GPT系列。这种架构的注意力机制是单向的，模型只能看到一个token的前文，无法看到后文，擅长生成类任务。预训练时常用因果语言模型任务，适合做文本生成、对话机器人等任务。
Encoder-Decoder架构（双向+单向）
代表模型是T5。这种架构结合了前两者的优势，Encoder负责理解输入文本，Decoder负责生成输出文本，擅长“理解+生成”类任务，比如机器翻译、文本摘要、数据到文本的生成。

五、预训练任务设计：自监督学习的“核心玩法”

预训练的核心是设计合理的自监督任务，让模型在没有人工标注的情况下，有明确的学习目标。主流任务分为两类：

掩码语言模型（MLM）
这是Encoder架构的标配任务。操作很简单：随机选择输入文本中15%左右的token，用[MASK]符号替换，然后让模型预测这些被掩盖的token是什么。比如句子“今天的天气很好”，被掩码后变成“今天的[MASK]气很好”，模型需要预测[MASK]是“天”。这个任务能强制模型学习双向上下文的关联，提升语义理解能力。
因果语言模型（CLM）
这是Decoder架构的标配任务。它的逻辑是“根据前文预测后文”：给定一个文本序列，让模型逐个预测下一个token。比如给定“今天的天气很”，模型需要预测下一个token是“好”。这个任务模拟了人类的语言生成过程，让模型学会“连贯地说一句话”，是生成式大模型的核心训练方式。
辅助任务：强化学习效果
除了核心任务，还会搭配一些辅助任务提升模型性能，比如句子顺序预测（判断两个句子的先后顺序）、对比学习（让模型区分相似和不相似的文本），这些任务能帮助模型更好地学习句子级别的语义关联。

六、训练过程：耗时耗力的“打磨阶段”

当数据、架构、任务都准备好后，就进入了正式的训练阶段，这也是最消耗计算资源的环节。

硬件要求：算力是基础
大模型预训练需要海量算力支撑，单块GPU完全不够用，通常需要多块高性能GPU或TPU组成集群。训练时会用到两种并行策略：数据并行（把数据分成多份，不同GPU训练不同数据）、模型并行（把模型参数拆分到不同GPU，解决单GPU内存不足的问题）。
训练策略：平衡效率与效果
首先是参数初始化，可以随机初始化，也可以用小模型的预训练参数初始化，加快收敛速度；然后是超参数设置，包括批次大小（batch size）、学习率（通常采用“预热+衰减”策略，前期小幅度提升学习率，后期逐渐降低）、训练轮数（epoch）。
优化器选择：让模型高效学习
常用的优化器是AdamW，它是Adam的改进版，加入了权重衰减，能有效防止过拟合。优化器的作用是根据模型的预测误差，调整参数，让模型的预测越来越准。
监控指标：判断训练效果
核心监控指标是困惑度（Perplexity），它衡量的是模型预测文本的难度，困惑度越低，说明模型的预测越准。此外，还要监控训练损失的变化趋势，如果损失持续下降，说明模型在有效学习；如果损失不再下降，说明模型已经收敛。