MindSpeed LLM率先支持MiniMax M2.7训练复现，加速模型迭代完成复杂任务-平芜编程栈

2026年4月12日，MiniMax正式开源MiniMax M2.7模型，在真实软件工程、专业办公与多智能体协作场景中的出色表现，是其第一个自我深度迭代的模型。昇腾MindSpeed LLM率先在Atlas 900 A3 SuperPoD液冷超节点、Atlas 800 A3风冷超节点上实现MiniMax M2.7端到端训练复现，并依托全新FSDP2训练后端实现高效训练，为大模型自我进化范式在昇腾生态的落地奠定关键基础。

MiniMax M2.7模型亮点

MiniMax M2.7是该系列首个深度参与自身迭代训练的旗舰模型，能自主构建Agent Harness并完成高度复杂的生产力任务。

模型自我进化：实现大模型参与自身迭代的闭环，在MLE Bench Lite测试中平均得牌率66.6%

真实软件工程：SWE-Pro（56.22%）、VIBE-Pro（55.6%）、Terminal Bench 2（57.0%）达国际水准，故障恢复时间缩至3分钟内

专业办公能力：GDPval-AA ELO得分1495（开源最高），Skills遵循率97%，MMClaw评测接近闭源旗舰

原生多智能体协作：内化Agent Teams能力，支持角色锚定与自主协调，实现自组织集群

MindSpeed LLM打通MiniMax M2.7适配
实现稳定高效训练

MiniMax M2.7基于稀疏MoE架构构建，为在昇腾AI基础软硬件上充分发挥硬件性能并实现高效训练，MindSpeed LLM团队完成了以下几个方面的关键工作：

引入GMM融合算子突破MoE前向计算瓶颈

直接运行MiniMax M2.7原生MoE前向计算易出现训练进程卡死问题，阻碍训练流程。MindSpeed LLM引入 moe_grouped_gemm（GMM）融合专家计算算子，将多专家的分组矩阵乘运算统一融合为单次高效NPU调用，彻底消除原生逐专家串行计算的执行瓶颈，恢复训练进程的正常推进。

深度适配MoE模块接口实现基于FSDP2框架高效EP切分

MiniMax M2.7稀疏MoE架构的专家模块接口与FSDP2框架EP 切分逻辑存在约定差异，导致专家参数无法按预期分片至各加速卡，EP并行策略无法正常启用。MindSpeed LLM针对MiniMax M2.7的MoE模块接口进行深度适配，对齐EP切分与路由分发逻辑，使专家并行完整生效，保障大规模MoE模型稳定训练。

NPU亲和融合算子适配充分释放训练性能

MiniMax M2.7原始实现中的RMSNorm、旋转位置编码（Rotary Position Embedding）、注意力计算等关键算子均为通用实现，未能充分利用昇腾NPU的硬件特性。MindSpeed LLM系统性完成昇腾亲和融合算子的替换，包括 fused_rmsnorm、fused_rotary_pos_emb及Flash Attention 昇腾适配版本，从计算核心链路全面释放NPU硬件算力，显著提升训练吞吐。

依托MindSpeed LLM FSDP2训练后端，实现新模型天级适配

MindSpeed LLM全新FSDP2训练后端彻底解耦并行策略与模型结构，无需修改MiniMax M2.7模型源码即可直接接入训练流程，简单步骤即可一键开启FSDP2与EP专家并行的全栈优化能力。开发者无需深究复杂的并行逻辑，即可在保障训练稳定性的同时，显著缩短模型迭代周期，真正实现‘开箱即用’的分布式训练体验。

快速上手-基于MindSpeed LLM套件启动
基于MiniMax M2.7训练

环境准备

请参考MindSpeed LLM安装指导文档：

https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/install_guide.md

# MindSpeed加速库 git clone https://atomgit.com/ascend/MindSpeed.git cd MindSpeed git checkout master pip3 install -r requirements.txt pip3 install -e . cd .. # 准备MindSpeed LLM git clone https://atomgit.com/ascend/MindSpeed-LLM.git cd MindSpeed-LLM git checkout master pip3 install -r requirements.txt # 安装其余依赖库

权重数据集

下载Hugging Face格式的权重，参考：

https://huggingface.co/MiniMaxAI/MiniMax-M2.7

配置模型路径和数据集，其中数据集配置支持内联配置或通过dataset_info.json注册，配置教程详见：

https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/finetune/fsdp2/finetune_fsdp2.md

启动训练

cd MindSpeed-LLM bash examples/fsdp2/minimax_m27/pretrain_minimax_m2p7_229b_4K_fsdp2_A3.sh

启动推理

bash examples/fsdp2/minimax_m27/chat_minimax_m2p7_fsdp2_A3.sh

模型脚本链接：

https://atomgit.com/Ascend/MindSpeed-LLM/tree/master/examples/fsdp2/minimax_m27

结语

本期为大家介绍了基于MindSpeed LLM高效部署MiniMax M2.7模型训推，更多关于大语言模型训练的能力和技术，欢迎开发者体验、贡献与共建！

MindSpeed LLM开源仓库：
https://atomgit.com/Ascend/MindSpeed-LLM

昇腾社区MindSpeed专区：
https://www.hiascend.com/developer/software/mindspeed

告别嗡嗡声！用SWM120 MCU驱动24V单相BLDC风扇，实现静音正弦波控制保姆级教程

静音革命：基于SWM120 MCU的24V单相BLDC风扇正弦波控制实战指南清晨的书房里，传统风扇的嗡嗡声总是打断思绪；卧室中，电机的高频啸叫让人辗转难眠——这些场景正是无数家电开发者和硬件爱好者试图攻克的难题。当市面大多数BLDC风扇…

李华

实时代码演化追踪系统搭建实录：从零部署可审计的生成-变更-归因链路（含开源工具链v2.3配置清单）

第一章：智能代码生成与代码演化分析 2026奇点智能技术大会(https://ml-summit.org) 现代软件开发正经历从“人工编写主导”向“人机协同演进”的范式迁移。智能代码生成不再局限于补全单行语句，而是深度融入代码生命周期——从初始原型生成、API契约推…

李华

朋友圈分享 vs 群聊分享：微信小程序不同入口的精细化运营指南

朋友圈分享 vs 群聊分享：微信小程序不同入口的精细化运营指南在微信生态中，小程序已成为连接用户与服务的重要桥梁。但你是否注意到，用户从朋友圈分享进入小程序，与从群聊分享进入，其行为模式和转化路径存在显著差异&…

李华

Windows 10上的Android子系统逆向工程实现：技术深度解析与工程实践

Windows 10上的Android子系统逆向工程实现：技术深度解析与工程实践【免费下载链接】WSA-Windows-10 This is a backport of Windows Subsystem for Android to Windows 10. 项目地址: https://gitcode.com/gh_mirrors/ws/WSA-Windows-10 在微软官方将Windo…

李华

如何用LayerDivider快速将插画智能分层：AI辅助PSD创建完整指南

如何用LayerDivider快速将插画智能分层：AI辅助PSD创建完整指南【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾经面对一张精美的插画…

李华