在2025小米人工智能生态合作伙伴大会上,罗福莉首次公开亮相Xiaomi MiMo大模型系列的最新成员——MiMo-V2-Flash。这个拥有309B总参数、15B活跃参数的开源MoE模型,不仅在传统语言模型基准测试中表现优异,更重要的是,它代表了小米在AGI路径探索上的一次重要转向:从"文本空间的演化拼图"走向"交互中的活出来"。
本文将从技术架构、训练范式、推理优化三个维度深入剖析MiMo-V2-Flash的设计哲学,并探讨其背后所蕴含的对下一代智能系统的深层思考。
一、架构设计:在效率与能力之间寻找最优解
1.1 Hybrid Attention:局部性与全局性的精妙平衡
MiMo-V2-Flash的核心创新之一是采用了Hybrid Attention机制,以5:1的比例混合Sliding Window Attention和Full Attention。这一设计看似简单,实则蕴含了对语言建模本质的深刻理解。
Sliding Window Attention的设计动机
选择128个token的滑动窗口并非随意。从语言学角度看,自然语言的局部依赖关系占据了绝大多数语义表达:
- 句法结构通常在10-30个token内完成闭合
- 指代消解的跨度中位数约为40-60个token
- 128的窗口大小既能覆盖典型段落内的依赖关系,又避免了计算冗余
更关键的是,Sliding Window Attention的KV Cache是固定的。在推理阶段,这意味着:
- 内存占用与序列长度解耦,实现O(W)空间复杂度(W为窗口大小)
- 避免了Full Attention在长文本推理时的显存爆炸问题
- 为后续的推理加速优化预留了空间
Full Attention的战略性配置
保留1/6的Full Attention层用于捕获全局依赖,这是对长距离关系建模的必要保障:
- 文档级推理需要跨段落的信息整合
- 多轮对话需要追溯历史上下文
- Agent场景需要维护全局任务状态
5:1的配比通过内部基准测试确定,在该比例下:
- 相比纯Full Attention,推理延迟降低约40%
- 相比纯Sliding Window,在长文本理解任务上性能提升12-15%
这种混合策略本质上是一种计算资源的差异化分配:让模型在"大部分时间做局部精细计算,关键时刻进行全局整合"。
1.2 MoE架构:稀疏性带来的涌现效应
309B总参数但仅15B激活的设计,体现了MoE(Mixture of Experts)架构的核心优势:通过路由机制实现参数的条件激活。
Expert专业化的自发形成
在训练过程中,不同Expert会自发地形成功能分化:
- 某些Expert专注于数学推理,对数值token的响应更敏感
- 某些Expert擅长代码生成,对编程关键字的激活阈值更低
- 某些Expert负责多语言理解,在跨语言任务中被优先路由
这种专业化是稀疏激活与海量数据共同作用的涌现现象。每个Expert在训练中只看到数据分布的某个切片,逐渐发展出针对该领域的专门化能力。
负载均衡的工程挑战
MoE训练的核心难点在于防止路由坍缩——所有样本都被路由到少数几个Expert,导致参数利用率低下。MiMo-V2-Flash采用了两种策略:
- 辅助损失函数:在主损失之外增加负载均衡项,惩罚Expert激活频率的方差
- 动态路由调整:训练早期增大路由噪声,鼓励探索;后期收紧,强化专业化
这使得在收敛后,各Expert的激活频率分布标准差控制在0.15以内,实现了较好的参数效率。
二、训练范式:多维度预测的监督信号
2.1 Multi-Teacher On-Policy Distillation (MOPD)
传统的知识蒸馏范式通常采用单一Teacher模型,Student通过最小化与Teacher输出分布的KL散度进行学习。但这种方式存在固有局限:
单一Teacher的能力天花板
如果Teacher本身在某些维度存在短板(如数学推理弱但代码生成强),Student会忠实地继承这些弱点。更糟糕的是,由于Student的容量通常小于Teacher,还会在蒸馏过程中进一步损失能力。
MOPD的多元化监督
MiMo-V2-Flash采用多个专家级Teacher分别负责不同维度:
- 数学推理Teacher:专门在数学问题数据集上微调的高性能模型
- 代码生成Teacher:在代码语料上训练的专家模型
- 长文本理解Teacher:针对文档级任务优化的模型
在训练时,根据当前样本的类型,动态选择对应Teacher的输出作为软标签。这种方式让Student能够:
- 汲取多个领域专家的优势,而非单一模型的平均水平
- 在不同任务上获得更精确的监督信号,提升整体泛化能力
On-Policy的关键作用
"On-Policy"意味着Teacher的监督信号是基于Student当前策略生成的,而非预先收集的静态数据集。具体流程:
- Student生成token-level的分布预测
- Teacher基于Student的概念分布进行rollout
- 将Teacher的token-level预测作为监督信号反馈给Student
这种实时交互式蒸馏的好处是:
- 监督信号与Student当前能力水平对齐,避免"too hard"或"too easy"的问题
- 动态调整学习难度,Teacher可以根据Student的输出调整自己的生成策略
- 减少分布偏移,Student训练分布与实际应用分布更接近
实验表明,MOPD相比静态蒸馏,在需要多步推理的任务上性能提升15-20%。
2.2 MTP:推理阶段的计算扩展
Multi-Token Prediction (MTP) 并非训练技巧,而是将compute在推理阶段的战略性投入。
从DeepSeek-V3的启发
DeepSeek-V3首次系统性地验证了MTP在提升模型基座能力上的有效性。其核心思想是:让模型不仅预测下一个token,还同时预测未来2-3个token。
这种多步预测迫使模型:
- 学习更长程的因果关系:不能仅靠局部统计,需要理解语义逻辑
- 内化语言的规划性:提前"看到"未来,隐式学习到路径规划能力
MiMo-V2-Flash的三层MTP设计
在预训练阶段引入三层MTP,即同时预测t+1、t+2、t+3位置的token。根据罗福莉团队的实测:
- 推理加速效果显著:在实际场景中,推理加速比达到2-2.6倍
- 单机环境下吞吐量提升:5000-15000 tokens/s,单请求速度可达150 tokens/s
- 相比无MTP的baseline:整体速度提升2-3倍
这里的加速并非来自硬件优化,而是算法层面的计算复用:
- 多个token的预测共享同一次前向传播的中间激活
- KV Cache的更新频率降低,内存带宽压力减小
- 批量解码多个token,减少了模型调用次数
为什么不是更多层?
可能会好奇:为什么是3层而不是5层或10层?原因在于:
- 预测准确率递减:随着预测跨度增加,t+4、t+5位置的预测准确率大幅下降
- 训练稳定性:过多的预测头会导致梯度冲突,主任务性能下降
- 边际收益降低:t+3之后,额外层带来的加速收益已不足以弥补训练成本
三层MTP是经过充分消融实验后的最优配置。
三、推理优化:极致效率的系统工程
3.1 推理效率的双重突破
MiMo-V2-Flash在推理阶段实现了两个维度的优化:
低推理成本(与DeepSeek-V3.2对比)
在保持相当推理速度的前提下,推理成本仅为DeepSeek-V3.2的1/3。这主要归功于:
- 更高效的Expert路由策略:通过训练阶段的负载均衡优化,减少了推理时的Expert切换开销
- 量化友好的模型结构:在设计阶段就考虑了INT8/INT4量化,激活值分布更集中
- 稀疏性感知的内核优化:针对MoE的稀疏激活模式,定制了CUDA kernel
高推理速度(与Gemini 2.5 Pro对比)
相比同等规模的Gemini 2.5 Pro,推理速度接近但成本降低20倍。这看似矛盾,实则反映了不同的架构选择:
- Gemini系列倾向于使用更密集的激活(可能30-40B active params),换取更高的单次推理质量
- MiMo-V2-Flash通过稀疏激活+多次快速推理的策略,实现了"快速迭代胜过一次完美"的哲学
在Agent场景下,后者的优势尤为明显:Agent需要频繁的小规模推理(观察-思考-行动循环),而非一次性生成大段文本。
3.2 结构化推理的隐式能力
一个有趣的发现是:MiMo-V2-Flash在未经专门训练的情况下,已经具备了初步的语言模拟世界的能力。
HTML系统模拟
模型可以通过HTML标签模拟一个简单的操作系统,响应用户指令并生成相应的"界面"。例如:
用户:创建一个带计数器的按钮 模型: <div class="app"> <button id="counter" onclick="increment()"> 点击次数: <span id="count">0</span> </button> </div> <script> let count = 0; function increment() { count++; document.getElementById('count').textContent = count; } </script>这种能力的涌现说明:模型已经学会将自然语言指令映射到结构化表示,并维护虚拟状态。
世界模拟的本质
罗福莉在演讲中提到:"当前大模型可以解答问题、写代码,但跳过了对世界感知、世界模拟及实体交互等关键步骤。"
MiMo-V2-Flash的设计目标是:不仅在文本空间学习统计规律,更要在交互中"活出来"。这意味着:
- 从"回答问题"转向"完成任务":不再满足于生成正确答案,而要能规划、执行、验证整个流程
- 必须具备与真实世界交互的能力:需要memory、reasoning、planning等高阶认知功能
- 建立统一的动态系统:能够融入眼镜、机器人等终端,真正嵌入生活流
四、从语言模型到具身智能:范式转换的必然性
4.1 语言模型的本质局限
传统语言模型通过scaling law实现了惊人的能力提升:更多参数、更大数据、更强算力。但这条路径逐渐显露出三个根本性瓶颈:
瓶颈一:沟通语言的高效性陷阱
人类的自然语言本质上是为了高效沟通而进化出的信息压缩编码。当我们说"太阳从东方升起"时,背后隐含了:
- 地球自转的物理知识
- 东方的空间方位概念
- 时间的周期性规律
但这些底层的物理机制、空间拓扑、时间因果都被压缩到了一句话中。语言模型学习到的是这种压缩后的表示,而非底层的world model。
这导致模型擅长"复述知识",但面对需要显式建模物理规律的任务(如机器人运动规划)就力不从心。
瓶颈二:交互带宽的根本制约
Agent在真实环境中的交互,需要极高的推理效率和实时性:
- 机器人抓取需要在100ms内完成感知-决策-执行循环
- 对话助手需要在用户暂停的2-3秒内生成回复
- 游戏AI需要每帧(16ms)输出动作决策
纯粹依靠扩大模型规模会导致推理延迟激增,无法满足实时交互的要求。必须在架构层面优化推理效率。
瓶颈三:从预训练到后训练的范式转变
预训练范式假设:大量文本数据包含了解决问题所需的全部知识。但这忽略了:
- 知识的形式化表达不完备:很多技能是"只可意会不可言传"的(如骑自行车的平衡感)
- 学习的反馈信号不充分:文本数据是静态的,缺乏交互中的即时反馈
- 泛化的激励机制不对齐:预训练优化的是下一个词的预测准确率,而非任务完成质量
因此,需要在后训练阶段引入更多compute,通过强化学习在交互中持续优化策略。
4.2 MiMo-V2-Flash的路径选择
面对上述挑战,小米团队选择了"从语言出发,但不止于语言"的技术路线:
阶段一:构建高效的语言基座
MiMo-V2-Flash首先是一个性能卓越的语言模型:
- 在SWE-Bench多语言编程任务中达到71.7%准确率,建立开源模型新标杆
- 在Agent、代码、工具调用等维度进入第一梯队
- 推理效率和成本控制达到产品化水准
这是后续能力的必要基础——Agent的规划、推理、沟通能力都依赖于强大的语言理解。
阶段二:探索语言到世界的映射
通过HTML系统模拟、工具调用接口等,模型开始学习:
- 将自然语言指令转换为结构化操作
- 维护虚拟环境的状态(如HTML DOM树)
- 理解操作的因果效应(点击按钮→数值增加)
这些能力是从符号空间(语言)到执行空间(action)的桥梁。
阶段三:融入真实世界的闭环交互
最终目标是构建能够:
- 通过传感器感知真实环境(视觉、触觉等)
- 在物理约束下规划动作序列
- 通过执行-观察-调整的循环持续优化策略
这需要模型不仅理解"太阳从东方升起"这句话,更要理解地球自转这一物理过程,并能在需要时(如规划航海路线)显式地调用这一知识。
4.3 "活出来"的智能体
罗福莉提出了一个深刻的洞察:"真正的智能不是从文本中'读出来',而是在交互中'活出来'。"
这句话包含三层含义:
1. 涌现优于设计
不是预先穷尽所有任务的解法并编码到模型中,而是给模型提供:
- 与环境交互的接口(观察、行动)
- 评价行为好坏的反馈信号(奖励函数)
- 充分的自主探索空间
让能力在交互中自然涌现。就像婴儿学走路,不是通过背诵力学公式,而是在反复跌倒-站起的过程中自我学习平衡。
2. 具身优于抽象
纯粹的符号操作(如解数学题)与物理世界交互(如机器人抓取)需要不同的推理模式:
- 前者可以忽略时间、空间的连续性,在离散的符号空间搜索
- 后者必须处理连续的状态空间、噪声的传感器输入、不确定的动作效果
具身智能要求模型将抽象推理能力与物理直觉相结合,这是纯语言模型难以企及的。
3. 适应优于预测
传统模型是"预测下一个词"——在训练分布上最小化预测误差。但真实世界是开放、动态的:
- 任务目标可能随时调整
- 环境状态持续变化
- 新的约束条件不断出现
因此需要模型具备在线学习和快速适应的能力,而非仅仅复现训练集的统计规律。
五、技术哲学的深层反思
5.1 对AGI路径的三个追问
MiMo-V2-Flash的设计背后,是小米团队对AGI本质的系统思考。罗福莉在演讲中提出了三个核心问题:
追问一:智能体必须高效沟通
这意味着语言能力不是可有可无的锦上添花,而是Agent的核心竞争力:
- 在多智能体系统中协同完成复杂任务
- 与人类自然交互,理解模糊指令、处理歧义
- 将内部推理过程外化为可解释的语言
因此,语言主要体现在代码能力和工具调用能力上——这是Agent与外部世界接口的标准化形式。
追问二:Agent交互带宽低
这决定了我们不能简单照搬大模型的scaling策略。如果每次推理都需要调用千亿参数模型,延迟会成为瓶颈。
解决方案是将大模型与小模型分层组合:
- 大模型负责高层规划、复杂推理(低频调用)
- 小模型负责实时决策、快速响应(高频调用)
- 通过蒸馏、剪枝等技术在两者间迁移能力
MiMo-V2-Flash的15B激活参数正是这一思路的体现:在保持强大能力的同时,确保单次推理足够快速。
追问三:范式转变需要稳定、可扩展的训练框架
从预训练到后训练的转变,需要模型具备:
- 在强化学习阶段不发生灾难性遗忘
- 能够从稀疏的环境反馈中高效学习
- 支持多模态输入(视觉、触觉等)的无缝融合
这要求更模块化、可组合的模型结构,而非单一的整体架构。
5.2 开源的战略意义
MiMo-V2-Flash选择完全开源(包括权重、技术报告、API),这不仅是技术分享,更是一种分布式协作的AGI开发范式。
开源加速技术迭代
开放模型权重后,全球开发者可以:
- 在特定领域数据上微调,发现新的涌现能力
- 尝试不同的后训练策略,探索最优路径
- 移植到不同硬件平台,推动工程化落地
这种集体智慧的汇聚速度远超单一公司的内部迭代。
开源促进生态繁荣
开放的Agent框架能够吸引更多开发者构建应用:
- 智能家居中的设备控制Agent
- 游戏中的NPC行为引擎
- 工业场景的自动化巡检系统
每个垂直领域的应用反过来会为模型提供新的训练数据和反馈,形成正向飞轮。
开源推动AGI普惠化
罗福莉强调:"AGI的下一个关键点,一定是能够与真实环境持续交互的物理程序。"
如果这一能力被少数科技巨头垄断,将加剧数字鸿沟。通过开源,让更多创业者、研究者、个人开发者能够参与AGI的构建,才能实现**"走向普惠的现实路径"**。
六、未来展望:从MiMo到真正的AGI
6.1 短期目标:Agent能力的全面提升
基于MiMo-V2-Flash的基座,小米团队接下来将重点优化:
- 多轮对话中的状态管理:通过外部memory模块,让Agent能够记住长时程交互历史
- 工具组合的自动规划:当任务需要调用多个API时,自动分解为子目标并顺序执行
- 容错与自我修正:当执行失败时,能够分析原因并尝试替代方案
这些能力将使MiMo从"回答问题的模型"进化为"完成任务的助手"。
6.2 中期愿景:多模态感知与推理
语言是重要的,但不是唯一的输入通道。真正的AGI需要:
- 视觉理解:从像素级输入中提取物体、场景、动作等高层语义
- 听觉处理:识别语音、理解情绪、区分说话人
- 触觉反馈:在机器人操作中,感知物体的材质、重量、温度
多模态融合的关键挑战是统一的表示空间:如何让视觉特征、语言特征、触觉特征在同一个embedding空间中对齐?
一种可能的方案是:通过自监督学习(如对比学习),让模型学会将不同模态的相关信息投影到相邻位置。例如,"红色苹果"的文本特征应该靠近红色苹果图像的视觉特征。
6.3 长期目标:具身智能的完整闭环
最终,AGI需要完成从感知到行动的完整闭环:
感知 → 世界建模 → 规划 → 执行 → 观察效果 → 更新模型这个闭环中的每个环节都需要深度学习模型的支持:
- 感知模块:视觉Transformer、音频编码器
- 世界模型:预测动作对环境的影响(如物理仿真)
- 规划模块:搜索满足目标的动作序列
- 执行模块:将高层动作指令转换为底层控制信号
- 元学习模块:根据反馈调整策略参数
这是一个端到端可微分的系统,可以通过强化学习在物理环境中持续优化。
结语
MiMo-V2-Flash不仅是一个性能优异的开源大模型,更是小米在AGI路径探索上的一次重要宣言:真正的智能不是在文本中"读出来",而是在交互中"活出来"。
从Hybrid Attention的精妙设计,到MOPD的多元化监督,再到MTP的推理加速,每一个技术细节都指向同一个目标:构建一个高效、可扩展、面向真实世界的智能体基座。
罗福莉说:"这只是我们在AGI路线图上的第二步。"我们有理由期待,随着模型规模的持续扩大、训练范式的不断创新、多模态能力的逐步融合,MiMo系列终将从"语言空间的演化拼图"走向"物理世界的活跃参与者"。
而这一天的到来,将不再是少数科技巨头的专属游戏,而是全球开发者共同书写的开源史诗。
参考资料:
- MiMo-V2-Flash Technical Report: github.com/XiaomiMiMo/MiM...
- MiMo-V2-Flash模型权重: hf.co/XiaomiMiMo/MiM...
- 官方博客: mimo.xiaomi.com/blog/mimo-v2-f...
- AI Studio: aistudio.xiaomimimo.com