简介
文章探讨了当前大模型面临的bad case问题,指出若不解决底层神经网络问题,大模型将沦为信息检索工具。文章介绍了在线策略蒸馏技术,这是一种结合了强化学习(在线策略)和蒸馏(密集奖励信号)的创新方法。它从学生模型采样轨迹,由教师模型对每个词元进行评分,提供密集反馈,帮助学生模型更有效地学习和避免错误,有望突破当前大模型的技术瓶颈。
大模型没法解决bad case的话,最终只能变成一个信息检索工具。
所谓的算法创新不去解决底层神经网络的问题,最终只能吃剩饭。
所谓的在线蒸馏,22年就被RL的人玩烂了。现在把模型做小,之后干啥呢?
群体博弈,各种小模型对弈?接着吃RL剩饭?这么吃,那RL解决不了的问题咋办呢?必须支持Sutton!
大模型估计也就到这了。但是大模型+还有很大落地空间,巨大落地空间。
在线策略蒸馏 (On-Policy Distillation)
https://thinkingmachines.ai/blog/on-policy-distillation/
引言
大型语言模型(LLMs)能够在聚焦的领域中展现出专家级性能,这是多项能力叠加的结果:输入感知、知识检索、计划选择和可靠执行。这需要一系列的训练方法,我们可以将其划分为三个主要阶段:
- 预训练 (Pre-training):教授通用能力,例如语言使用、广义推理和世界知识。
- 中度训练 (Mid-training):传授领域知识,例如代码、医疗数据库或公司内部文档。
- 后训练 (Post-training):引出目标行为,例如指令遵循、数学问题推理或聊天。
经过更强训练的小型模型,通常能在其受训的专业领域中胜过更大型的通用模型。使用小型模型有许多益处:它们可以为隐私或安全考虑在本地部署,可以更容易地持续训练和更新,并节省推理成本。要利用这些优势,需要在训练的后期阶段选择正确的方法。
对“学生”模型进行后训练的方法可分为两种:
- 在线策略训练 (On-policy training):从学生模型本身采样轨迹 (rollouts),并为其分配一定的奖励。
- 离线策略训练 (Off-policy training):依赖于来自外部源的目标输出,学生模型学习模仿这些输出。
例如,我们可以通过强化学习 (Reinforcement Learning, RL)进行在线策略训练,通过评估学生的每次轨迹是否解决了问题。在线策略训练的优势在于,学生通过训练自己的样本,能更直接地学习避免错误。但 RL 有一个主要缺点:它提供的反馈非常稀疏,无论使用了多少词元,每次训练回合教授的比特数是固定的。这种反馈的稀疏性使得 RL 在许多应用中效率低下。
离线策略训练通常通过监督微调 (Supervised Fine-Tuning, SFT)完成:在经过精心策划的一组特定任务的标记示例上进行训练。这些标记示例的来源可以是已被证明在该任务上表现良好的**“教师”模型**。
我们可以使用一种称为蒸馏 (distillation)的机制:训练学生模型以匹配教师模型的输出分布。我们基于教师轨迹进行训练:包括中间思考步骤在内的完整生成词元序列。离线策略训练的缺点在于,学生是在教师经常出没的上下文中学习,而不是在学生本身经常遇到的上下文中学习。这可能导致复合误差:如果学生犯了一个教师从未犯过的早期错误,它会发现自己越来越偏离训练中观察到的状态。
观测到的另一个问题是,学生可能学会模仿教师的风格和信心,但不一定模仿其事实准确性。
我们希望将 RL 的在线策略相关性与蒸馏的密集奖励信号结合起来。对于 LLM 的后训练而言,这就是在线策略蒸馏。
| 方法 | 采样方式 | 奖励信号 |
|---|---|---|
| 监督微调 (Supervised finetuning) | 离线策略 (off-policy) | 密集 (dense) |
| 强化学习 (Reinforcement learning) | 在线策略 (on-policy) | 稀疏 (sparse) |
| 在线策略蒸馏 (On-policy distillation) | 在线策略 (on-policy) | 密集 (dense) |
在线策略蒸馏——两全其美
在线策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能的教师模型对每条轨迹中的每一个词元进行评分。回到上面的数学示例,在线策略蒸馏将对解决方案的每一步进行评分,惩罚导致学生得出错误答案的错误,同时强化执行正确的步骤。
在大模型时代,我们如何有效的去学习大模型?
现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF书籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型各大场景实战案例
结语
【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~