news 2026/2/9 7:52:32

大模型核心原理-关键技术解析:预训练、SFT、RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型核心原理-关键技术解析:预训练、SFT、RLHF

大模型关键技术:预训练、SFT与RLHF

自从 ChatGPT 问世以来,大语言模型(LLM)似乎在一夜之间改变了世界。目前的LLM训练流水线(Pipeline)通常遵循 OpenAI 提出的范式:Pre-training → SFT → RLHF。本文主要介绍这三个关键阶段:预训练(Pre-training)、监督微调(SFT)和基于人类反馈的强化学习(RLHF)


第一阶段:预训练(Pre-training)

核心逻辑:Next Token Prediction

大模型诞生的第一步,是把它扔进海量数据中。在这个阶段,研究人员会收集互联网上几乎所有的文本数据——维基百科、书籍、新闻、代码库等等,总量达到万亿级别(Tokens)。

预训练的核心是自监督学习 (Self-Supervised Learning),具体的训练任务通常是自回归语言建模 (Autoregressive Language Modeling)。模型通过计算前 i - 1个token的上下文,通过 Transformer (Decoder-only) 架构,计算第 i 个token在词表(Vocabulary)上的概率分布。简单来说,就是“预测下一个字是什么”。

  • 技术关键词:Transformer 架构、无监督学习(Unsupervised Learning)、自回归(Auto-regressive)。
  • 产出物:基座模型(Base Model)
  • 特点:它具备了极强的概率预测能力和知识储备,但本质上是一个“文本生成器”,而非“对话助手”。

第二阶段:监督微调(SFT, Supervised Fine-Tuning)

核心逻辑:指令跟随(Instruction Following)

拥有了基座模型后,我们得到了一个“懂很多知识,但不懂怎么对话”的天才。SFT 的目的,就是教会它如何 “听懂人话” 并 “按要求回答”。

在这个阶段,由于数据质量要求极高,通常需要人工介入。人类标注员会编写成千上万个高质量的“问答对”(Prompt-Response Pairs)。SFT 的本质是全监督学习 (Fully Supervised Learning)。

与预训练的区别: 预训练的数据是无标注的纯文本,SFT 的数据是 Prompt-Response Pairs,示例如下:

训练数据示例:

  • Prompt(指令):请把下面这句话翻译成英文:今天天气不错。
  • Response(回答):The weather is nice today.

模型通过学习这些样本,开始理解:原来当用户使用祈使句时,我应该执行任务,而不是续写文本。

  • 技术关键词:提示词工程(Prompt Engineering)、指令微调(Instruction Tuning)。
  • 产出物:对话模型(Chat Model)
  • 特点:此时的模型已经可以和人类流畅对话了。但它可能还不够完美,有时会一本正经地胡说八道(幻觉),或者说话语气像个机器人,缺乏“情商”。

第三阶段:RLHF(基于人类反馈的强化学习)

核心逻辑:奖惩机制(Reward & Policy Optimization)

这是让大模型从“可用”进化到“好用”的关键一步,也是 OpenAI 当年拉开差距的杀手锏。

SFT 虽然有效,但人类语言太复杂了,要把所有正确答案都写出来是不可能的。而且,有些回答没有标准答案(比如写一首诗),只有好坏之分。

RLHF 包含如下步骤:

  1. 训练奖励模型(Reward Model - RM):
    模型针对同一个问题生成几个不同的回答。人类标注员会对这些回答进行排名(A比B好,B比C好)。然后训练一个独立的“奖励模型”,让它学习人类的评分标准。

  2. 强化学习(PPO - Proximal Policy Optimization):
    让大模型生成回答,奖励模型给它打分。如果分数高,模型就加强这种回答方式;如果分数低,就调整参数。

  • 技术关键词:3H原则(Helpful有用, Honest诚实, Harmless无害)、PPO算法、奖励模型。
  • 产出物:对齐后的模型(Aligned Model)
  • 特点:经过 RLHF,模型的回答不仅准确,而且更加符合人类的价值观(比如不生成暴力、歧视内容),语气也更自然、更讨喜。

总结:大模型炼成记

训练一个大模型通常包含如下三个步骤:

  1. 预训练(Pre-training):通过海量数据提炼出蕴含智慧的基座模型。这一步最贵,消耗算力最大。
  2. SFT(监督微调):将基座模型进行优化,让它具备对话能力。
  3. RLHF(强化学习):打磨细节,去除杂质,让它对齐人类价值观。

正是这三个步骤的精密配合,才让我们拥有了今天这样强大、智能的 AI 助手。

如果你觉得这篇文章对你有帮助,欢迎转发分享!关于大模型技术你还有什么想了解的?在评论区告诉我吧!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 22:28:10

深蓝词库转换:解决输入法切换困境的终极方案

深蓝词库转换:解决输入法切换困境的终极方案 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 当你在不同输入法之间切换时,是否曾遇到过这样的…

作者头像 李华
网站建设 2026/2/4 20:14:31

OFDRW技术演进全解析:从基础构建到企业级文档处理方案

OFDRW作为国内领先的OFD版式文档处理Java库,历经多个版本的迭代升级,已发展成为功能完备的企业级文档解决方案。本文将从技术架构、功能演进和应用场景三个维度,深度解析该项目从初始版本到最新版本的技术发展轨迹。 【免费下载链接】ofdrw O…

作者头像 李华
网站建设 2026/2/7 2:15:07

酷安UWP客户端终极使用指南:5分钟快速上手电脑版酷安

想在Windows电脑上畅享酷安社区的完整体验吗?这款基于UWP平台的第三方酷安客户端为你提供了完美的桌面解决方案。作为专业的酷安UWP使用指南,我们将带你从零开始,全面掌握这款开源应用的核心功能和使用技巧。 【免费下载链接】Coolapk-UWP 一…

作者头像 李华
网站建设 2026/2/4 10:32:16

21、Linux 文件归档、同步与正则表达式基础

Linux 文件归档、同步与正则表达式基础 1. 文件归档工具:zip 在 Linux 系统中, zip 既是压缩工具,也是归档工具,其 .zip 文件格式为 Windows 用户所熟知。不过在 Linux 里, gzip 是主要的压缩程序, bzip2 紧随其后。 zip 的基本使用格式如下: zip options…

作者头像 李华
网站建设 2026/2/6 9:43:40

智能求职管家:AI赋能的高效简历投递解决方案

智能求职管家:AI赋能的高效简历投递解决方案 【免费下载链接】boss_batch_push Boss直聘批量投简历,解放双手 项目地址: https://gitcode.com/gh_mirrors/bo/boss_batch_push 在当今竞争激烈的就业市场中,求职者面临着海量岗位筛选与重…

作者头像 李华
网站建设 2026/2/7 16:44:37

33、提升脚本交互性:键盘输入读取与循环控制全解析

提升脚本交互性:键盘输入读取与循环控制全解析 1. 脚本交互性的重要性 在计算机编程中,许多脚本缺乏交互性,即程序与用户进行互动的能力。虽然有些程序无需交互,但有些程序从直接接受用户输入中受益。例如之前编写的整数评估脚本: #!/bin/bash # test-integer2: eval…

作者头像 李华