从信息检索到智能突破：大模型的bad case解决方案与在线策略蒸馏！-平芜编程栈

简介

文章探讨了当前大模型面临的bad case问题，指出若不解决底层神经网络问题，大模型将沦为信息检索工具。文章介绍了在线策略蒸馏技术，这是一种结合了强化学习(在线策略)和蒸馏(密集奖励信号)的创新方法。它从学生模型采样轨迹，由教师模型对每个词元进行评分，提供密集反馈，帮助学生模型更有效地学习和避免错误，有望突破当前大模型的技术瓶颈。

大模型没法解决bad case的话，最终只能变成一个信息检索工具。

所谓的算法创新不去解决底层神经网络的问题，最终只能吃剩饭。

所谓的在线蒸馏，22年就被RL的人玩烂了。现在把模型做小，之后干啥呢？

群体博弈，各种小模型对弈？接着吃RL剩饭？这么吃，那RL解决不了的问题咋办呢？必须支持Sutton！

大模型估计也就到这了。但是大模型+还有很大落地空间，巨大落地空间。

在线策略蒸馏 (On-Policy Distillation)

https://thinkingmachines.ai/blog/on-policy-distillation/

引言

大型语言模型（LLMs）能够在聚焦的领域中展现出专家级性能，这是多项能力叠加的结果：输入感知、知识检索、计划选择和可靠执行。这需要一系列的训练方法，我们可以将其划分为三个主要阶段：

预训练 (Pre-training)：教授通用能力，例如语言使用、广义推理和世界知识。
中度训练 (Mid-training)：传授领域知识，例如代码、医疗数据库或公司内部文档。
后训练 (Post-training)：引出目标行为，例如指令遵循、数学问题推理或聊天。

经过更强训练的小型模型，通常能在其受训的专业领域中胜过更大型的通用模型。使用小型模型有许多益处：它们可以为隐私或安全考虑在本地部署，可以更容易地持续训练和更新，并节省推理成本。要利用这些优势，需要在训练的后期阶段选择正确的方法。

对“学生”模型进行后训练的方法可分为两种：

在线策略训练 (On-policy training)：从学生模型本身采样轨迹 (rollouts)，并为其分配一定的奖励。
离线策略训练 (Off-policy training)：依赖于来自外部源的目标输出，学生模型学习模仿这些输出。

例如，我们可以通过强化学习 (Reinforcement Learning, RL)进行在线策略训练，通过评估学生的每次轨迹是否解决了问题。在线策略训练的优势在于，学生通过训练自己的样本，能更直接地学习避免错误。但 RL 有一个主要缺点：它提供的反馈非常稀疏，无论使用了多少词元，每次训练回合教授的比特数是固定的。这种反馈的稀疏性使得 RL 在许多应用中效率低下。

离线策略训练通常通过监督微调 (Supervised Fine-Tuning, SFT)完成：在经过精心策划的一组特定任务的标记示例上进行训练。这些标记示例的来源可以是已被证明在该任务上表现良好的**“教师”模型**。

我们可以使用一种称为蒸馏 (distillation)的机制：训练学生模型以匹配教师模型的输出分布。我们基于教师轨迹进行训练：包括中间思考步骤在内的完整生成词元序列。离线策略训练的缺点在于，学生是在教师经常出没的上下文中学习，而不是在学生本身经常遇到的上下文中学习。这可能导致复合误差：如果学生犯了一个教师从未犯过的早期错误，它会发现自己越来越偏离训练中观察到的状态。

观测到的另一个问题是，学生可能学会模仿教师的风格和信心，但不一定模仿其事实准确性。

我们希望将 RL 的在线策略相关性与蒸馏的密集奖励信号结合起来。对于 LLM 的后训练而言，这就是在线策略蒸馏。

方法	采样方式	奖励信号
监督微调 (Supervised finetuning)	离线策略 (off-policy)	密集 (dense)
强化学习 (Reinforcement learning)	在线策略 (on-policy)	稀疏 (sparse)
在线策略蒸馏 (On-policy distillation)	在线策略 (on-policy)	密集 (dense)

在线策略蒸馏——两全其美

在线策略蒸馏的核心思想是从学生模型中采样轨迹，并使用高性能的教师模型对每条轨迹中的每一个词元进行评分。回到上面的数学示例，在线策略蒸馏将对解决方案的每一步进行评分，惩罚导致学生得出错误答案的错误，同时强化执行正确的步骤。

在大模型时代，我们如何有效的去学习大模型？

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 更优质的项目可以为未来创新创业提供基石。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；
第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；
第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；
第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；
第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；
第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；
第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。