news 2026/4/18 13:54:12

MindSpeed LLM率先支持MiniMax M2.7训练复现,加速模型迭代完成复杂任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MindSpeed LLM率先支持MiniMax M2.7训练复现,加速模型迭代完成复杂任务

2026年4月12日,MiniMax正式开源MiniMax M2.7模型,在真实软件工程、专业办公与多智能体协作场景中的出色表现,是其第一个自我深度迭代的模型。昇腾MindSpeed LLM率先在Atlas 900 A3 SuperPoD液冷超节点、Atlas 800 A3风冷超节点上实现MiniMax M2.7端到端训练复现,并依托全新FSDP2训练后端实现高效训练,为大模型自我进化范式在昇腾生态的落地奠定关键基础。

MiniMax M2.7模型亮点

MiniMax M2.7是该系列首个深度参与自身迭代训练的旗舰模型,能自主构建Agent Harness并完成高度复杂的生产力任务。

模型自我进化:实现大模型参与自身迭代的闭环,在MLE Bench Lite测试中平均得牌率66.6%

真实软件工程:SWE-Pro(56.22%)、VIBE-Pro(55.6%)、Terminal Bench 2(57.0%)达国际水准,故障恢复时间缩至3分钟内

专业办公能力:GDPval-AA ELO得分1495(开源最高),Skills遵循率97%,MMClaw评测接近闭源旗舰

原生多智能体协作:内化Agent Teams能力,支持角色锚定与自主协调,实现自组织集群

MindSpeed LLM打通MiniMax M2.7适配
实现稳定高效训练

MiniMax M2.7基于稀疏MoE架构构建,为在昇腾AI基础软硬件上充分发挥硬件性能并实现高效训练,MindSpeed LLM团队完成了以下几个方面的关键工作:

引入GMM融合算子突破MoE前向计算瓶颈

直接运行MiniMax M2.7原生MoE前向计算易出现训练进程卡死问题,阻碍训练流程。MindSpeed LLM引入 moe_grouped_gemm(GMM)融合专家计算算子,将多专家的分组矩阵乘运算统一融合为单次高效NPU调用,彻底消除原生逐专家串行计算的执行瓶颈,恢复训练进程的正常推进。

深度适配MoE模块接口实现基于FSDP2框架高效EP切分

MiniMax M2.7稀疏MoE架构的专家模块接口与FSDP2框架EP 切分逻辑存在约定差异,导致专家参数无法按预期分片至各加速卡,EP并行策略无法正常启用。MindSpeed LLM针对MiniMax M2.7的MoE模块接口进行深度适配,对齐EP切分与路由分发逻辑,使专家并行完整生效,保障大规模MoE模型稳定训练。

NPU亲和融合算子适配充分释放训练性能

MiniMax M2.7原始实现中的RMSNorm、旋转位置编码(Rotary Position Embedding)、注意力计算等关键算子均为通用实现,未能充分利用昇腾NPU的硬件特性。MindSpeed LLM系统性完成昇腾亲和融合算子的替换,包括 fused_rmsnorm、fused_rotary_pos_emb及Flash Attention 昇腾适配版本,从计算核心链路全面释放NPU硬件算力,显著提升训练吞吐。

依托MindSpeed LLM FSDP2训练后端,实现新模型天级适配

MindSpeed LLM全新FSDP2训练后端彻底解耦并行策略与模型结构,无需修改MiniMax M2.7模型源码即可直接接入训练流程,简单步骤即可一键开启FSDP2与EP专家并行的全栈优化能力。开发者无需深究复杂的并行逻辑,即可在保障训练稳定性的同时,显著缩短模型迭代周期,真正实现‘开箱即用’的分布式训练体验。

快速上手-基于MindSpeed LLM套件启动
基于MiniMax M2.7训练

环境准备

请参考MindSpeed LLM安装指导文档:

https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/install_guide.md

# MindSpeed加速库 git clone https://atomgit.com/ascend/MindSpeed.git cd MindSpeed git checkout master pip3 install -r requirements.txt pip3 install -e . cd .. # 准备MindSpeed LLM git clone https://atomgit.com/ascend/MindSpeed-LLM.git cd MindSpeed-LLM git checkout master pip3 install -r requirements.txt # 安装其余依赖库

权重数据集

下载Hugging Face格式的权重,参考:

https://huggingface.co/MiniMaxAI/MiniMax-M2.7

配置模型路径和数据集,其中数据集配置支持内联配置或通过dataset_info.json注册,配置教程详见:

https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/finetune/fsdp2/finetune_fsdp2.md

启动训练

cd MindSpeed-LLM bash examples/fsdp2/minimax_m27/pretrain_minimax_m2p7_229b_4K_fsdp2_A3.sh

启动推理

bash examples/fsdp2/minimax_m27/chat_minimax_m2p7_fsdp2_A3.sh

模型脚本链接:

https://atomgit.com/Ascend/MindSpeed-LLM/tree/master/examples/fsdp2/minimax_m27

结语

本期为大家介绍了基于MindSpeed LLM高效部署MiniMax M2.7模型训推,更多关于大语言模型训练的能力和技术,欢迎开发者体验、贡献与共建!

MindSpeed LLM开源仓库:
https://atomgit.com/Ascend/MindSpeed-LLM

昇腾社区MindSpeed专区:
https://www.hiascend.com/developer/software/mindspeed

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 13:51:19

实时代码演化追踪系统搭建实录:从零部署可审计的生成-变更-归因链路(含开源工具链v2.3配置清单)

第一章:智能代码生成与代码演化分析 2026奇点智能技术大会(https://ml-summit.org) 现代软件开发正经历从“人工编写主导”向“人机协同演进”的范式迁移。智能代码生成不再局限于补全单行语句,而是深度融入代码生命周期——从初始原型生成、API契约推…

作者头像 李华
网站建设 2026/4/18 13:49:44

朋友圈分享 vs 群聊分享:微信小程序不同入口的精细化运营指南

朋友圈分享 vs 群聊分享:微信小程序不同入口的精细化运营指南 在微信生态中,小程序已成为连接用户与服务的重要桥梁。但你是否注意到,用户从朋友圈分享进入小程序,与从群聊分享进入,其行为模式和转化路径存在显著差异&…

作者头像 李华
网站建设 2026/4/18 13:47:47

如何用LayerDivider快速将插画智能分层:AI辅助PSD创建完整指南

如何用LayerDivider快速将插画智能分层:AI辅助PSD创建完整指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾经面对一张精美的插画…

作者头像 李华