news 2026/1/19 3:25:57

从信息检索到智能突破:大模型的bad case解决方案与在线策略蒸馏!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从信息检索到智能突破:大模型的bad case解决方案与在线策略蒸馏!

简介

文章探讨了当前大模型面临的bad case问题,指出若不解决底层神经网络问题,大模型将沦为信息检索工具。文章介绍了在线策略蒸馏技术,这是一种结合了强化学习(在线策略)和蒸馏(密集奖励信号)的创新方法。它从学生模型采样轨迹,由教师模型对每个词元进行评分,提供密集反馈,帮助学生模型更有效地学习和避免错误,有望突破当前大模型的技术瓶颈。


大模型没法解决bad case的话,最终只能变成一个信息检索工具。

所谓的算法创新不去解决底层神经网络的问题,最终只能吃剩饭。

所谓的在线蒸馏,22年就被RL的人玩烂了。现在把模型做小,之后干啥呢?

群体博弈,各种小模型对弈?接着吃RL剩饭?这么吃,那RL解决不了的问题咋办呢?必须支持Sutton!

大模型估计也就到这了。但是大模型+还有很大落地空间,巨大落地空间。

在线策略蒸馏 (On-Policy Distillation)

  • https://thinkingmachines.ai/blog/on-policy-distillation/

引言

大型语言模型(LLMs)能够在聚焦的领域中展现出专家级性能,这是多项能力叠加的结果:输入感知知识检索计划选择可靠执行。这需要一系列的训练方法,我们可以将其划分为三个主要阶段:

  1. 预训练 (Pre-training):教授通用能力,例如语言使用、广义推理和世界知识。
  2. 中度训练 (Mid-training):传授领域知识,例如代码、医疗数据库或公司内部文档。
  3. 后训练 (Post-training):引出目标行为,例如指令遵循、数学问题推理或聊天。

经过更强训练的小型模型,通常能在其受训的专业领域中胜过更大型的通用模型。使用小型模型有许多益处:它们可以为隐私或安全考虑在本地部署,可以更容易地持续训练和更新,并节省推理成本。要利用这些优势,需要在训练的后期阶段选择正确的方法。

对“学生”模型进行后训练的方法可分为两种:

  • 在线策略训练 (On-policy training):从学生模型本身采样轨迹 (rollouts),并为其分配一定的奖励。
  • 离线策略训练 (Off-policy training):依赖于来自外部源的目标输出,学生模型学习模仿这些输出。

例如,我们可以通过强化学习 (Reinforcement Learning, RL)进行在线策略训练,通过评估学生的每次轨迹是否解决了问题。在线策略训练的优势在于,学生通过训练自己的样本,能更直接地学习避免错误。但 RL 有一个主要缺点:它提供的反馈非常稀疏,无论使用了多少词元,每次训练回合教授的比特数是固定的。这种反馈的稀疏性使得 RL 在许多应用中效率低下。

离线策略训练通常通过监督微调 (Supervised Fine-Tuning, SFT)完成:在经过精心策划的一组特定任务的标记示例上进行训练。这些标记示例的来源可以是已被证明在该任务上表现良好的**“教师”模型**。

我们可以使用一种称为蒸馏 (distillation)的机制:训练学生模型以匹配教师模型的输出分布。我们基于教师轨迹进行训练:包括中间思考步骤在内的完整生成词元序列。离线策略训练的缺点在于,学生是在教师经常出没的上下文中学习,而不是在学生本身经常遇到的上下文中学习。这可能导致复合误差:如果学生犯了一个教师从未犯过的早期错误,它会发现自己越来越偏离训练中观察到的状态。

观测到的另一个问题是,学生可能学会模仿教师的风格和信心,但不一定模仿其事实准确性。

我们希望将 RL 的在线策略相关性与蒸馏的密集奖励信号结合起来。对于 LLM 的后训练而言,这就是在线策略蒸馏

方法采样方式奖励信号
监督微调 (Supervised finetuning)离线策略 (off-policy)密集 (dense)
强化学习 (Reinforcement learning)在线策略 (on-policy)稀疏 (sparse)
在线策略蒸馏 (On-policy distillation)在线策略 (on-policy)密集 (dense)

在线策略蒸馏——两全其美

在线策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能的教师模型对每条轨迹中的每一个词元进行评分。回到上面的数学示例,在线策略蒸馏将对解决方案的每一步进行评分,惩罚导致学生得出错误答案的错误,同时强化执行正确的步骤。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型各大场景实战案例

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/14 5:52:12

开源Open-AutoGLM地址到底在哪?10分钟带你找到官方资源并部署上线

第一章:开源的Open-AutoGLM地址在哪Open-AutoGLM 是一个面向自动化自然语言处理任务的开源框架,由深度学习与大模型研究团队联合发布,旨在降低大语言模型在实际场景中的应用门槛。该项目已在主流代码托管平台公开源码,便于开发者查…

作者头像 李华
网站建设 2026/1/12 4:20:02

Open-AutoGLM落地实战(手机端大模型部署全攻略)

第一章:Open-AutoGLM落地实战(手机端大模型部署全攻略)在移动端部署大语言模型已成为智能应用开发的关键环节。Open-AutoGLM 作为开源的轻量化 GLM 架构推理框架,专为资源受限设备优化,支持在 Android 和 iOS 平台高效…

作者头像 李华
网站建设 2026/1/15 15:39:45

Open-AutoGLM究竟有多强?:阿里云自研工具如何实现大模型推理效率提升80%

第一章:Open-AutoGLM 阿里云Open-AutoGLM 是阿里云推出的一款面向自动化任务生成与执行的大语言模型,专为云服务环境下的智能运维、自动化脚本生成和自然语言驱动的API调用设计。该模型融合了自然语言理解与代码生成能力,能够将用户以中文描述…

作者头像 李华
网站建设 2026/1/17 11:56:34

技术文档太多记不住?Anything-LLM来帮你记忆所有细节

Anything-LLM:让AI替你记住所有技术细节 在信息爆炸的今天,一个开发者可能上午读完一份30页的微服务架构文档,下午就被问起其中某个接口的设计逻辑——结果只能尴尬地回一句:“我记得有提过……但具体在哪?”这种“明明…

作者头像 李华
网站建设 2026/1/10 10:14:28

【独家解析】智谱AI Open-AutoGLM开源:4大应用场景与落地实践指南

第一章:智谱AI宣布开源Open-AutoGLM 项目近日,智谱AI正式宣布开源其自动化大模型应用框架——Open-AutoGLM。该项目旨在降低大语言模型在实际场景中的使用门槛,使开发者能够快速构建基于GLM系列模型的自动化任务处理系统,涵盖自然…

作者头像 李华