news 2026/5/12 20:44:36

每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

大模型的训练数据来自大规模的语料库,数据中包含海量的信息,那如何训练出一个可以进行交互的大语言模型呢?

大语言模型的训练往往包含三个阶段,预训练阶段,监督微调阶段,和强化学习阶段。

第一阶段是pretraining,也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成,目的是让大模型学会或记住这些知识。训练采用自回归的方法,通过前几个token预测下一个token,从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后,下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据,对基础模型进行微调。训练数据提供“期望的回复”作为学习目标,使模型从通用的文本生成器,转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段,也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后,第三阶段的目的是教会模型按人类的偏好进行学习,目标是让模型的输出更符合人类的安全与价值偏好。首先,收集人类对模型不同回复的偏好数据,训练一个奖励模型来模拟人类的判断。接着,使用强化学习算法,以奖励模型的打分为信号,优化微调后的语言模型,同时约束其输出不要过于偏离微调阶段的水平,以确保生成质量。
如今,直接偏好优化等方法因更简单高效,也常被用于此阶段。首先是对模型提问,让模型输出两个回答,人类专业对回答进行打分,模型根据打分更新模型参数,从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习,模型记住了知识,学会了回答问题,并通过人类的反馈,使其回答的更加贴合人类的偏好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 12:49:27

基因研究到药物研发,亚马逊云科技生成式AI如何加速癌症终结?

亚马逊云科技技术通过加速基因分析、改进早期检测、加速药物研发以及扩大医疗服务覆盖范围,为全球医疗服务提供者对抗癌症提供了支持。每年2月4日的世界癌症日提醒着我们,全球数以百万计的人受到了癌症的影响。在亚马逊云科技,我们正与研究人…

作者头像 李华
网站建设 2026/5/12 2:45:23

vue基于Spring Boot的心理咨询预约管理系统应用和研究_32h35596

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/5/12 12:49:04

亚马逊云科技如何为生命科学行业提供更强大的AI支持?

随着DeepSeek-R1推理模型的广泛应用,其强大的推理能力逐渐显现。与人类的思维方式类似,大语言模型分为“慢思考”和“快思考”两种模式。慢思考适用于复杂的多步推理任务,如撰写文章、制定研究计划等;而快思考则用于一步完成的简单…

作者头像 李华
网站建设 2026/5/11 9:05:01

vue基于Spring Boot的现代化动物园观光游览系统的应用和研究_716v8zj0

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/5/11 17:01:34

27岁从传统行业裸辞转网络安全,我是如何实现弯道超车的

27 岁从传统行业裸辞转网络安全,我是如何做到的? 27 岁女生从传统行业裸辞转网络安全,3 个月拿到大厂 offer:这行真的没你想的那么难 后台经常收到私信,问我一个做了 4 年传统行业(之前是线下品牌运营&am…

作者头像 李华
网站建设 2026/5/11 3:12:46

回收施耐德模块

施耐德电气是全球能效管理与自动化领域的专家,其自动化设备以高效、可靠和互联互通著称,广泛应用于离散制造、流程工业及基础设施等领域。 热门型号示例:PLC: Modicon M580(大型)、Modicon M241&#xff…

作者头像 李华