news 2026/7/1 15:26:46

想在云上低成本部署高性能Agent?MiniMax-M2 + DigitalOcean实战指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
想在云上低成本部署高性能Agent?MiniMax-M2 + DigitalOcean实战指南

MiniMax-M2 为开发者提供了一个引人注目的解决方案,它通过一个拥有 2300 亿参数但仅激活 100 亿参数的专家混合模型,来提供编码和智能体能力。该模型在保持与 Claude Sonnet 4.5 和 GPT-5 等尖端模型相媲美的性能的同时,仅需其一小部分计算开销,因此尤其适合那些对成本控制和低延迟有严格要求的部署场景。

模型概览

核心能力面向开发者的核心价值关键指标/详情
智能体性能MiniMax-M2 使用标签将其推理过程与最终输出分离。这使模型能够在多轮交互中保持连贯的思维链。擅长需要规划、执行与调整的复杂长程任务,是构建自主智能体的理想选择。在 BrowseComp(44.0 分)和 ArtifactsBench(66.8 分)上表现出色,超越多个规模更大的模型。
高级编码专为端到端的开发者工作流设计,支持包含“编码-运行-修复”的迭代循环以及多文件编辑。在 Terminal-Bench(46.3 分)和 SWE-bench Verified(69.4 分)基准测试中极具竞争力。
工具调用能力为复杂工具集成(Shell、浏览器、搜索)而构建,在与外部数据或系统交互时表现稳健可靠。提供专门的工具调用指南。在 HLE(使用工具)及其他工具增强基准测试中表现强劲。
卓越的通用智能在通用知识和推理方面保持竞争力,确保即使在核心编码任务之外也能可靠工作。综合 AA 智能得分达 61 分,在开源模型中名列前茅。

部署指南

官方文档给出了多种运行 MiniMax-M2 的方式。

以下为官方文档中推荐的配置,实际需求请根据具体用例调整:

  • 4×96 GB GPU:支持最长 400 K token 的上下文
  • 8×144 GB GPU:支持最长 3 M token 的上下文

由于我们这次用的是数据量比较大的模型,所以我们直接用 8×H200 的集群来运行它。

我们在这里使用的是 DigitalOcean 的 GPU Droplet 云服务器。目前 DigitalOcean 可以提供 H200(单卡或 8 卡)、H100(单卡或 8 卡)等一系列 GPU 服务器机型,而且支持按需实例和裸金属。

相对于 AWS、GCP 等云平台,DigitalOcean 提供的 GPU 服务器总体成本更低,而且使用简单,无学习成本。DigitalOcean 还将在明年年初正式推出基于 NVIDIA B300 的 GPU Droplet 服务器,详情可直接咨询 DigitalOcean 中国区独家战略合作伙伴卓普云 AI Droplet。

1. 在 Web 控制台里

apt install python3.10-venv
v pip install 'triton-kernels @ git+https://github.com/triton-lang/triton.git@v3.5.0#subdirectory=python/triton_kernels' vllm --extra-index-url https://wheels.vllm.ai/nightly --prerelease=allow

启动服务:

SAFETENSORS_FAST_GPU=1 vllm serve \ MiniMaxAI/MiniMax-M2 --trust-remote-code \ --tensor-parallel-size 4 \ --enable-auto-tool-choice --tool-call-parser minimax_m2 \ --reasoning-parser minimax_m2_append_think

安装 vllm 和 fla-core

pip install vllm fla-core

然后我们发送一段请求。

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "MiniMaxAI/MiniMax-M2", "messages": [ {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}, {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]} ] }'

我们在 Web 控制台里看到了模型的输出。

我们看下模型给我们输出了什么:

"content": "<think>Okay, the user is asking who won the World Series in 2020. Let me start by recalling the correct information. The Los Angeles Dodgers defeated the Tampa Bay Rays. That was a significant event because it was during the pandemic, so the season had unique adjustments.</think>The user might be a baseball fan wanting a quick fact, or perhaps someone who has heard about the series and wants confirmation. They didn't mention any specific context, so keeping it straightforward is best. But maybe they're interested in the historical aspect of that win, especially since it was the Dodgers' first title since 1988. Including that detail adds value.I should also note the unusual circumstances of the 2020 season. The COVID-19 pandemic affected everything, with shortened seasons, limited crowds, and other changes. Mentioning these factors could address deeper curiosity about how the event stood out. However, since the user didn't ask for that, I should balance conciseness with relevant context.\\n\\nThe user possibly a casual viewer looking for a quick answer? Or a student working on a project? They might need the answer for trivia or an assignment. Either way, providing the teams and the year, along with the significance of the Dodgers' win, covers the essentials without overcomplicating. No need for excessive details unless they follow up. Keeping the response clear and accurate is key here.\\n\\n<|im-start|>The **Los Angeles Dodgers** won the **2020 World Series**. \\n\\nThey defeated the **Tampa Bay Rays** in 6 games (4-2). This was the Dodgers' first World Series championship since 1988. The 2020 World Series was held in Arlington, Texas, at Globe Life Field (the neutral site) due to the COVID-19 pandemic and its impact on the MLB season. \\n\\nThe decisive game was game 6, played on October 27, 2020, where the Dodgers won 3-1.<|im-end|>"

这段输出展示了 MiniMax-M2 的核心特性:

  • 交错思考格式:使用<think>标签将内部推理与最终答案分开。
  • 高质量输出:给出准确、简洁且格式规范的答案,既包含关键事实(道奇击败光芒),也补充了相关背景(疫情环境、中立球场、历史意义),体现了前沿级别的事实检索与总结能力。

如果你正在构建智能体系统、编程工具,或者任何既需要高智能又追求高效率的应用,不妨试用一下这个模型。

6. 常见问题

Q:MiniMax-M2 是什么?

A:总参 230 B 的 MoE 模型,专为代码与 Agent 场景设计,每 token 仅激活 10 B,兼顾性能与成本。

Q:支持工具调用吗?

A:支持。采用“工具优先”设计,可自动判断何时调用外部工具。

Q:什么是“交错思考”?

A:模型用 … 把中间推理与最终答案分开,方便多轮对话中保持连贯的逻辑链。

Q:有哪些 Agent 基准表现?

A:在 Terminal-Bench 得 46.3 %,在 BrowseComp 得 44 %,超过很多更大的通用模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/28 22:52:57

如何实现无代码自动化测试?零基础入门

为什么无代码自动化测试是测试从业者的必备技能&#xff1f;在当今快速迭代的软件开发环境中&#xff0c;自动化测试已成为提升效率、保证质量的关键。传统自动化测试通常需要编程技能&#xff0c;这给许多测试从业者设置了门槛。无代码自动化测试&#xff08;No-Code Automati…

作者头像 李华
网站建设 2026/7/2 0:11:47

‌自动驾驶感知系统仿真测试:软件测试从业者的实践指南

感知系统在自动驾驶中的关键作用‌ 自动驾驶技术正飞速发展&#xff0c;而感知系统&#xff08;包括摄像头、雷达、LiDAR等传感器&#xff09;是车辆“眼睛”&#xff0c;负责环境识别与决策。真实道路测试成本高、风险大&#xff0c;仿真测试成为软件测试从业者的核心工具。它…

作者头像 李华
网站建设 2026/7/1 21:15:04

Java毕设选题推荐:基于spring boot的高校宿舍管理系统设计基于springboot的高校学生宿舍管理系统设计【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/7/2 4:19:36

数字人民币跨境支付试点启动,稳定币会被取代吗?

一、政策重磅&#xff1a;八部门联合发文&#xff0c;数字人民币出海迈出关键一步2025年12月24日&#xff0c;中国人民银行、国家发展改革委、财政部、交通运输部、商务部、金融监管总局、中国证监会、国家外汇局等八部门联合印发《关于金融支持加快西部陆海新通道建设的意见》…

作者头像 李华
网站建设 2026/6/26 17:52:25

MBA必看!9个降AI率工具推荐,高效避坑指南

MBA必看&#xff01;9个降AI率工具推荐&#xff0c;高效避坑指南 AI降重工具&#xff1a;MBA论文的智能护航者 在当前学术写作中&#xff0c;随着AI技术的广泛应用&#xff0c;论文中的AIGC率问题逐渐成为MBA学生需要重点关注的难点。许多同学在使用AI生成内容时&#xff0c;往…

作者头像 李华
网站建设 2026/6/28 22:39:29

互联网医院系统|禾高互联网医院|互联网医院成品

随着医疗健康服务的数字化进程加速&#xff0c;互联网医院系统已演变为重构医疗资源配置、优化诊疗流程、重塑患者体验的战略性基础设施。其本质并非线下医疗的简单线上化&#xff0c;而是以患者为中心、以数据为驱动、以安全和合规为基石的新型医疗服务模式的综合载体。1、患者…

作者头像 李华