news 2026/3/23 20:24:59

MiMo-V2-Flash学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MiMo-V2-Flash学习

总结于文章:https://mp.weixin.qq.com/s/XKRqHP-2sdWmLTbTWuNwkA

小米MiMo团队在12月16日晚上发布并开源了MiMo-V2-Flash。团队在官方博客中介绍,这是一款强大、高效且超快速的基座语言模型,在推理、编程和智能体场景中表现尤为出色,同时也是处理日常任务的优秀通用助手。

1.模型形态:推理效率成为核心

MiMo-V2-Flash采用混合专家(Mixture-of-Experts,MoE) 架构,总参数规模为309B,但在实际推理过程中,仅有约15B参数被激活。

MiMo-V2-Flash支持最高256k的上下文长度,使其能够完成跨数百轮Agent交互和工具调用的任务。与这一指标同样重要的,是它实现这一能力的方式。团队围绕极致推理效率设计模型结构,主要有两个方面创新:Hybrid SWA架构(混合滑动窗口注意力)和3层MTP推理。这一设计并不追求理论上的最优表达能力,而是针对KV Cache的显存与计算成本进行了现实取舍

罗福莉介绍:“MTP一开始是被提出来用于做推理加速的,后面DeepSeek将它用于提升基座模型的能力,我们也在训练的时候去加入了MTP层进一步提升基座模型的潜能。微调的时候加入了更多层的MTP,用很少量的算力就提升了MTP层的接受率。

根据技术报告,MTP在不显著影响生成质量的前提下,可将推理速度提升最高约3倍。

2.训练方法:全新的后训练范式MOPD

小米MiMo团队在MiMo-V2-Flash的后训练阶段,创新提出了多教师在线策略蒸馏(Multi-Teacher Online Policy Distillation,MOPD)范式,正是针对这一问题提出的解决方案。

但这在推理和Agent场景里会出现问题,比如学生模型只学“答案”,不学“过程”;学生模型在真实推理中走偏、犯错,不按教师模型的路径走。此外Agent场景中的工具调用、多轮决策、长时规划, 这些都不是“看一个标准答案”就能学会的。

而MOPD的核心思路,是让学生模型先按照当前策略生成推理或Agent行为轨迹,再由多个教师模型在这些on-policy 轨迹上进行token级指导。

问题:如何实现token级别指导? 强化奖励吗? 和deepseek math v2有点像?

这种方式使学生模型学习的对象从理想化的“标准答案”,转变成自身在真实状态空间中的行为分布。

罗福莉还分享了一件让她意外的事情:“当学生模型很快超越教师模型的时候,能不能让这个学生替换成教师,继续自我迭代提升?”

根据官方博客,MOPD采用了解耦设计,支持灵活地集成新的教师模型和ORM,并自然而然地实现“教与学”的闭环迭代:通过蒸馏得到的学生模型可以演化为更强的教师模型,从而实现能力的持续自我提升。

值得一提的是,MOPD训练稳定且极其高效——要达到教师模型的最高性能,仅需传统SFT+RL流程不到1/50的计算资源。

MOPD提供的是一种相对平滑、稳定的中间训练阶段,用于在进入高噪声的强化学习之前,对模型行为进行约束和塑形。这种设计降低了强化学习在长时序任务中可能出现的策略崩坏风险,也使模型在复杂环境中的探索更加可控。

3.罗福莉与小米:一次面向Agent时代的下注

而从行业视角看,MiMo-V2-Flash代表着大模型路线的一种分化趋势:在预训练Scaling逐渐逼近边际收益的背景下,围绕推理系统、Agent能力与工程可行性的探索,正在成为新的竞争维度。

这一方向并不依赖于极端的算力投入,而更强调系统设计、训练方法与工程能力的协同。这种路线,也更贴近大模型在产业环境中的真实需求。

有趣的是,今天罗福莉表达了类似的观点:“算力和数据也并非最终的护城河,真正的护城河,是科学的研究文化与方法,是将未知问题结合模型优势转化为可用产品的能力。”

她认为,大模型本质上是用了算力的暴力美学,直接去攻克了最顶层的语言,但是它跳过了中间的非常多的步骤,比如对世界的感知、模拟,以及作为实体与环境产生交互。

“单纯Scaling Up参数量不够,”罗福莉说,“要让大模型回到‘演化课堂’,补上它跳过的关键学习步骤。”

在MiMo-V2-Flash发布之前,罗福莉和MiMo有一次对话,她想让MiMo”深入阐述物理世界导向:强调多模态和真实世界交互才是通往真正智能(AGI)的关键,而非仅靠文本。

MiMo的回答是:“智能根植于存在,而非符号。”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 22:34:05

二叉树输出(btout)(信息学奥赛一本通- P1366)

【题目描述】树的凹入表示法主要用于树的屏幕或打印输出,其表示的基本思想是兄弟间等长,一个结点的长度要不小于其子结点的长度。二叉树也可以这样表示,假设叶结点的长度为1,一个非叶结点的长度等于它的左右子树的长度之和。一棵二…

作者头像 李华
网站建设 2026/3/18 20:41:41

写论文软件哪个好?别被“秒出全文”迷惑——真正能陪你从开题到答辩的,只有它把AI当“科研协作者”,而非“代笔枪手”

“写论文软件哪个好?” 这个问题在毕业季刷爆高校论坛。 你点开推荐列表,满屏都是:“3分钟生成万字论文”“导师看不出是AI写的”“毕业无忧神器”…… 但真相是—— 这些工具生成的“论文”,往往文献是编的、图是假的、数据是幻…

作者头像 李华
网站建设 2026/3/11 7:22:59

从手动编写到AI生成:Redux开发效率提升300%

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请分别用传统手动编写和使用AI生成两种方式实现相同的Redux功能:用户认证系统。要求包含:登录、登出、token刷新、权限验证等功能。完成后请对比两种方式的代…

作者头像 李华
网站建设 2026/3/17 6:58:57

3分钟快速搭建MySQL8开发环境:Docker极简方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请设计一个极简的Docker MySQL8开发环境方案,要求:1. 最简配置(单容器) 2. 预置常用配置 3. 包含示例数据库 4. 一键启动脚本 5. 快速连接指南 6. 资源占用最…

作者头像 李华
网站建设 2026/3/21 17:38:52

使用帧加载vue组件

背景首页渲染页面的时候,因为加载的元素特别多,页面会出现白屏解决方案使用浏览器的API requestAnimationFrame, 比如每一帧加载一个组件,依次加载所有的组件举例说明目录结构components--HeavyComp.vue APP.vue useDefer.jsuseDe…

作者头像 李华
网站建设 2026/3/22 17:38:12

设计师必备:用Snipaste快捷键提升10倍截图效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个Snipaste高级使用指南网页应用,包含:1.设计工作流中的5个典型截图场景案例 2.每个案例的详细快捷键操作步骤分解 3.操作过程动画演示 4.效率对比数据…

作者头像 李华