一、前置基础:先搞懂两个核心前提
1. 所有文字,在模型眼里都只是数字;
2. 核心技术底座:Transformer架构
(1)自注意力机制(Self-Attention),模型关联上下文的核心;
(2)前馈神经网络(FFN)+ 多层堆叠;
二、完整链路第一步:预训练(模型学知识的阶段)
用万亿数据,以预测下一词为目标,把知识/逻辑存入参数;
三、完整链路第二步:微调&对齐(让模型听懂人话,好好答题)
1. 有监督微调 SFT(Supervised Fine-Tuning)
2. 人类反馈强化学习RLHF/RLAI(对齐,核心是说人话、答题准)
四、运行阶段:推理(提问,模型实时生成答案的底层过程)
1:输入预处理;
2:Trasformer逐层计算(核心运算);
3:采样:选出下一个字/词;
4:循环生成(逐字输出)