这家西方开源大模型公司，开源出了DeepSeek-V3背后的架构！头部模型表现都差不多了，Mistral CEO自曝如何赚钱-平芜编程栈

如果各家前沿模型的性能已经非常接近，几乎难以分出谁更强——那会发生什么？面对《the Big Technology Podcast》抛出的问题，Mistral AI的 CEO Arthur Mensch 表示：大模型肯定会走向商品化，当模型表现越来越接近，那么竞争就不在于模型本身，而在于如何让客户用起来。

2025年底，一个明显的信号开始出现：Google 的 Gemini 已经追平了 OpenAI，Claude 和 GPT 在测试基准上的表现难分伯仲，而中国大模型如Kimi、智谱、Minimax 也在快速逼近。

如果各家前沿模型的性能已经非常接近，几乎难以分出谁更强——那会发生什么？

面对《the Big Technology Podcast》抛出的问题，Mistral AI的 CEO Arthur Mensch 表示：大模型肯定会走向商品化，当模型表现越来越接近，那么竞争就不在于模型本身，而在于如何让客户用起来。

Mistral AI是一家法国的大模型公司，成立于2023年，拥有Le Chat聊天机器人以及一系列开源的基础模型，比如Mistral Large 2、Mistral 7B、Mistral Small等等。

Mistral自称为“西方开源模型提供者”。Arthur Mensch 透露，2024年DeepSeek发布的DeepSeek-V3模型，就是在Mistral 开源的稀疏混合专家架构（Sparse Mixture of Experts）上构建出来的。

Arthur Mensch 曾在 Google Deepmind 工作，他是开创性论文《训练计算最优的大型语言模型》的主要作者之一。另外两位创始人 Guillaume Lample 和 Timothée Lacroix 则来自Meta，他们是最初的 LLaMa 模型背后的研究人员之一。

在这场采访中，Arthur Mensch 表示，现在几家头部大模型的表现越来越接近，这是因为大家掌握着同样的训练方法，能获取类似的数据，使用的算法和训练范式也高度一致。训练一个模型所需的核心知识是相当有限的，而一旦知识足够清晰，就会迅速扩散。

他也认为，开源模型会迅速追平闭源模型的表现，核心原因在于预训练的“饱和效应”。他列举了一个数据：当把预训练规模推到大约 10²⁶ FLOPs 时，可被压缩的数据量本身就有限了。后来者只要在算力和效率方面跟上，就能在几个月内达到同一量级。

在这种情况下，如何帮助企业落地AI应用，就变得非常关键。

这个判断不是 Mistral 一家的，前不久Sam Altman也曾向媒体表示，OpenAI 在 2026 年的一个核心优先级，就是为企业构建应用。

关于如何帮助企业落地应用，Arthur Mensch认为有两类机会：一是效率提升，让原来 20 人干的活，2个人就能搞定；二是技术突破，帮企业突破以前做不到的事。

他还坦言，Mistral AI在欧洲相比OpenAI、Anthropic的核心优势在于——他们不是美国公司。当企业接受AI在自身经济体系中落地，又不希望受到闭源模型或单一厂商的掣肘时，那么开源技术刚好能提供这种保障。

他们一直以来坚持的开源战略，就是为了服务那些希望对 AI 拥有足够控制权的公司和国家，尤其是政府、银行和受严格监管的行业——简单来说，就是不希望被单一闭源厂商卡脖子的公司。

同时，他们本身就是一家欧洲公司，对于欧洲政府及企业而言也有额外的优势。

目前，Mistral AI 已经与招聘机构卢森堡、航运巨头 CMA、德国国防科技初创 Helsing、IBM、半导体制造商ASLM、Orange 和 Stellantis 等都建立了合作关系。这个月，Mistral AI还刚刚与法国军队达成合作关系，让敏感系统在法国控制的基础设施上持续运行。

此外，Arthur Mensch还表示AGI这个概念过于简单了，不存在一个系统，可以解决世界上所有问题。就像不存在一个人类，能胜任所有工作一样。

从长远来看，Arthur Mensch表示，他不认为 AI 会被单一的赢家或国家主导。相反，他预计未来必然会出现多个AI中心，一个在欧洲（由Mistral 主导），一个在中国，此外在美国西海岸也会有一批公司共同构成另一极。

以下是对话全文，有适当删减和润色：

头部大模型能力接近，重点在于如何为企业创造价值

Alex：过去一段时间，外界一直在讨论 Google 到 2025 年底已经追平 OpenAI，而 OpenAI 的模型也和其他前沿模型基本持平。从外部看，基础模型的商品化速度比我原本预期的要快得多。我原以为会有一场“拉开差距”的竞赛，但现在看来，各家前沿模型的性能已经非常接近，几乎难以分出谁更强。你怎么看这种趋势？

Arthur：我认为，从本质上讲，这项技术必然会走向商品化。原因在于，构建基础模型本身并不算特别困难。全球大概有十家左右的实验室，掌握着同样的训练方法，能获取类似的数据，使用的算法和训练范式也高度一致。实际上，训练一个模型所需的核心知识是相当有限的，而一旦知识足够短、足够清晰，就会迅速扩散。

这意味着，很难形成真正长期的、不可逾越的技术壁垒，也就很难在模型层面实现持续的“代际领先”。在这种情况下，真正的问题就变成了：价值到底在哪里沉淀？以及，什么样的商业模式，才能在最终实现盈利？

我们看到一些竞争对手正在投入数百亿、甚至上千亿美元，去构建那些会迅速贬值的资产，因为基础模型本身正在被商品化。对 Mistral 来说，从一开始我们就把这个问题当成核心问题：既要投入足够多，确保模型能为企业创造价值，又必须保持投资理性，确保在一个高度竞争、资产快速折旧的环境中，单位经济模型仍然成立。

Alex：那我们再聊聊“做最强模型”这件事。你刚才提到成本问题。比如 OpenAI 宣称将投入 1.4 万亿美元建设基础设施。如果模型最终都趋于同质化，会不会有公司开始反思：继续砸这么多钱去做“下一代模型”，是否已经不划算了？

Arthur：从战略角度看，确实存在一个“投入尺度”的问题。你需要投入到什么程度，才能让一家技术公司真正为企业或消费者创造足够的价值？最终，这些投入都必须由下游创造的自由现金流来支撑。

我们在 Mistral 的关注重点，也是我认为更理性的方向，是更偏向下游应用，真正去理解企业正在遭遇哪些摩擦，并努力把这些摩擦消除掉。当前行业面临的一个核心挑战在于：三四年前，AI 给出了大量承诺，但如果你现在去问企业，“你们真的靠 AI 赚到钱了吗？”，大多数答案是否定的。

原因并不在于模型不够聪明，而在于企业没有进行足够的定制化，也没有从问题本身出发进行设计。很多时候，企业先想“我要用 AI”，而不是“我到底要解决什么问题”。如果你真正把问题拆清楚，做适度的定制化，很多原本需要 20 人运行的供应链流程，现在可能只需要 2 个人。这样的案例其实很多。

行业真正的挑战在于，企业能否足够快地创造价值，来支撑整个行业正在进行的巨大资本投入。

Alex：这点确实很有意思。过去很长一段时间，大家都在谈“模型、模型、模型”，比如 GPT-5 是不是最大的新闻。但现在，像 OpenAI 这样的公司，开始更多谈论如何把已有的智能，真正做成企业可用的应用。

我可以分享一个背景信息。几周前，我在纽约和 Sam Altman 以及一些媒体负责人共进午餐。Altman 提到，OpenAI 在 2026 年的一个核心优先级，就是为企业构建应用。这在话术上，是从“构建 AGI”转向“构建企业应用”的明显变化。你怎么看这种转变？它是否正是基础模型商品化的结果？

Arthur：我认为，首先，AGI 本身是一个过于简化的概念，对企业来说尤其如此。不存在一个系统，可以解决世界上所有问题。就像不存在一个人类，能胜任所有工作一样。现实世界中，解决问题必然需要一定程度的专业化。

所以，我们正在从某种“魔法式思维”，回归到“系统工程思维”。真正重要的是：针对特定任务，使用什么数据？如何建立反馈机制，让系统在与人类交互中不断获取信号、持续变好？企业本身就是复杂系统，不可能通过一个抽象的“AGI”一把解决。

某种程度上，AGI 更像是一个北极星式的目标，用来说明“系统会持续变好”。但当你无法向投资人解释，为什么你的技术永远无法被竞争对手追上时，叙事自然会发生转移，从“构建一个万能系统”，转向“深入企业内部，解决真实问题”。

在 Mistral，我们从一开始就基于这样的判断来构建公司：AI 会更加去中心化，企业需要更多定制化能力，纯粹依靠规模和数据增长会逐渐触顶。这也是我们公司的底层逻辑。

Alex：你们确实走得很早。那我再追问一点：我感觉行业中有一个明显的思路转变。之前大家相信，只要模型足够聪明，它就能自动完成很多工作，比如替代初级岗位、自动做数据录入、跨系统生成报告。但现在，行业似乎开始意识到，模型只是系统的一部分，真正重要的是基础设施，包括编排、工具链、以及围绕模型构建的应用层。你怎么看？

Arthur：从系统视角看，始终存在两个核心组成部分。第一，是由人类定义的“静态部分”，也就是流程、规则、约束和系统行为方式。这些是人为设定的系统结构。

第二，是“动态部分”，也就是模型本身。模型可以调用工具、执行多步推理、决定执行路径。这一部分变得越来越强，因为模型可以思考更久、调用更多工具、甚至写代码。

但认为只靠动态系统、完全没有人类引导就能解决一切问题，是一种不现实的想法。过去三年里，动态能力确实飞速增长，但静态部分依然极其重要。事实上，动态能力越强，静态结构反而越能放大系统整体能力。

你可以把前者叫“代理”，后者叫“编排”。两者会一起进化，共同推动我们解决越来越复杂的问题。

开源模型可以保障，企业不会被锁死在单一厂商

Alex：在这个前提下，如果基础模型已经商品化，那么 AI 的商业机会究竟在哪里？我大致看到三类：一是面向消费者的产品，比如聊天机器人；二是让现有产品变得更智能，比如在 Excel 里聊天；三是企业级应用。你会如何排序这三类机会？

Arthur：在消费端，AI 正逐渐成为信息访问的入口，本质上会催生一个新的广告业务。这一块一定会存在，但并不是我们的重点。

在企业端，我认为正在发生的是一次彻底的“企业软件重构”。企业本质上由人、数据和流程构成。过去，这些要素被割裂在不同系统、不同工具和不同团队中。

AI 让你可以从分散的数据开始，把智能层放在上面，构建一个持续理解企业运行状态的“上下文引擎”。这个引擎可以自动生成适合不同员工的界面，而不再需要预先设计好的复杂软件界面。

未来，系统的底层会退化成纯数据库，而真正的价值，在于上下文引擎和按需生成的前端界面。这种企业软件的重构，可能需要十年时间，但价值极其巨大。

此外，还有另一类企业机会：帮助企业把高度专有的数据，转化为别人无法复制的智能能力。比如在制造业、航空、半导体设备领域，让模型真正理解特定物理过程或设备运行逻辑。这不仅提升效率，更是在解锁原本受限于物理和工程瓶颈的技术进步。

这种价值更难衡量、周期更长，但从长期看，推动技术边界的突破，可能才是 AI 最大的价值所在。

Alex：那我试着把你的逻辑推演一下。如果你所说的这些，确实构成了 AI 世界中价值的核心来源，那么其实只有两条路。第一条，是打造一个明显强于所有对手的模型，然后以溢价出售。但我们刚才已经讨论过，这种模式看起来不太可能长期成立。第二条路是：模型本身并不是价值所在，真正的价值在于“如何使用模型”的方法论和落地能力。你可以把模型开源，然后通过服务企业，教他们如何把模型真正用起来、产生实际结果。你认为这就是行业面前的两种选择吗？

Arthur：是的，这基本上就是我们看到的行业分叉点。而我们的选择，一直是第二条路，也就是以开源为核心的实现路径。这不仅带来更强的定制化能力，也带来去中心化。

如果你假设整个经济体系最终都会运行在 AI 系统之上，那么企业自然会关心一件事：有没有人能“关掉”我的系统？就像一家工厂接入电网时，会希望没人能因为不喜欢你而把电断掉一样。如果 AI 逐渐变成一种公共基础设施，把“智能”视作“电力”，那么企业就会希望，自己获取智能的能力不受任何人限制、不会被限流。开源技术正好能提供这种保障。

Alex：也就是说，如果你使用的是开源模型，就不需要担心，比如触犯 Anthropic 的用户条款，从而被暂停服务之类的情况。使用开源，你可以按照自己的规则来运行系统。

Arthur：没错。你可以按照自己的条件运行系统，构建所需的冗余，获得更高的服务质量。无论地缘政治环境如何变化，只要你愿意，都可以继续运行你的系统。

这是从 IT 视角来看。如果我是 CIO，我会把开源视为一种建立自主性和议价能力的方式。而从更偏科学和知识的角度看，开源几乎是唯一一种方式，能够把员工几十年积累下来的“隐性知识”，真正转化为企业的独有资产。要做到这一点，你必须基于开源模型去训练属于自己的模型。

当然，这件事本身是很难的。真正构建这些系统，需要合适的工具和专业能力，这也正是围绕开源模型所衍生出来的配套商业模式。

Alex：但即便是闭源模型提供商，比如 Anthropic，也会说他们可以用企业的数据来定制模型。你不相信这种说法吗？

Arthur：他们当然会这么说，但同时也会在上面加很多“护栏”。本质上，你是在信任对方的工程团队，愿不愿意、以及能不能，给你足够深入的系统访问权限。而这种信任，能不能持续十年、二十年？我并不确定。

所以，这不仅是定制化的问题，更是控制权的问题。供应商天然会尝试锁定客户。如果你是基于开源模型构建系统，无论是我们的模型还是其他人的，你都会更少受到供应商绑定。考虑到 AI 是一项极其关键的技术，你其实不希望把自己完全锁死在单一厂商身上。这也是我们所提供的核心价值之一。

开源和闭源模型的差距只有几个月，模型能力会越来越垂直

Alex：过去一年，开源的发展非常引人关注。今年一月我在报道 DeepSeek 时，主流观点认为：这是开源的一次巨大飞跃，开源社区通过协作，很可能会超过 OpenAI、Anthropic、Google Gemini 等闭源模型。但现在，虽然我们看到 Gemini 等模型在“追平”GPT，却并没有看到开源完全兑现当初的预期。是我理解错了吗？还是开源被什么因素拖慢了？

Arthur：如果你看 2024 年，开源模型大概落后六个月；到 2025 年，这个差距已经缩小到三个月左右。至于明年会是多少，就留给大家自己判断了。但可以确定的是，这个差距正在迅速缩小。

核心原因在于预训练的“饱和效应”。当你把预训练规模推到大约 10²⁶ FLOPs 时，可被压缩的数据量本身就有限了。后来者只要在算力和效率上跟上，就能在几个月内达到同一量级。

如今，任何一个有实力的实验室，都可以在几个月内获得这样的计算规模。因此，最早起跑的闭源模型，反而更早撞上了预训练的天花板，而开源模型则迅速追平。

比如我们最近发布的开源编程模型，在性能上大致相当于 Anthropic 两三个月前的水平。所以，从纯性能角度看，开源和闭源正在持续收敛。

但两者的价值主张本来就不同。闭源模型提供的是托管和便利，而开源则需要更多投入，你需要自己掌控定制、部署和维护。但最终，开源为用户带来的，是对闭源供应商的制衡能力。

Alex：你提到了“饱和效应”。那是不是意味着模型已经快到极限了？AI 还会继续变得更好吗？

Arthur：模型当然还会继续进步，但主要体现在越来越具体、越来越垂直的领域。横向能力方面，我们已经把模型训练得非常聪明，能长时间推理、调用多种工具。但当你真的要把它们部署到银行或制造业时，模型还需要学习企业自身所蕴含的大量专业知识。

如果你想让模型在材料发现、飞机设计等方向上做到极致，就必须付出额外努力，引入专家、设计合适的反馈信号，让模型在非常具体的方向上变强。我们远远没有完成这件事。

真正能拉开差距的，不是通用推理能力，而是和垂直领域专家深度合作。未来两年，最令人兴奋的事情，将是模型在物理、化学、制药、生物等具体方向上的爆发式进步。

你可以在某一个领域，把模型做到“超人级”，但不可能在所有领域同时做到。这正是下一阶段 AI 发展的核心特征。

Mistral的优势在于“不是美国公司”

Alex：有些人认为，Mistral 之所以在欧洲被扶持起来，是因为美国公司在欧洲面临更严格的监管，很难竞争，而 Mistral 正好利用了这种“监管壁垒”，从而吃下欧洲的 AI 市场。你怎么看这种说法？

Arthur：我们的技术设计目标，是为了服务那些希望对 AI 拥有足够控制权的公司和国家。人工智能并不是一种你可以完全外包给某一个供应商的技术，尤其是当这个供应商来自外国的时候。

这种担忧在数据时代就已经存在了，而在人工智能时代只会更加明显。其中一个重要原因是，如果你长期依赖外部 AI 供应商，你的商业结构本质上会变成持续进口数字服务。从长期来看，这会成为一个结构性问题。

此外，所谓“主权”在国防领域尤为重要。如果你是一个独立国家，你希望拥有独立的防御系统，而未来的防御系统必然会深度依赖人工智能。这意味着，你最终需要拥有属于自己的、独立的 AI 能力。

Alex：所以你们的这个叙事，其实在发挥作用：你们不是美国公司，而是欧洲公司，因此可以帮助客户构建在数据保护、国家安全、国防等方面更可控的系统？

Arthur：更准确地说，这是一种我们主动构建出来的技术差异化。因为我们的系统可以部署在边缘，可以部署在客户希望的任何地方。哪怕我们这家公司不存在了，系统本身仍然可以继续运行。

这一点对很多行业来说都非常重要，而且行业越关键，这一点就越重要。这也意味着，我们不仅可以服务欧洲客户，同样也可以服务美国客户——那些希望减少对某些大型供应商依赖的企业，比如监管非常严格、需要高度定制和控制的银行。

当然，我们最早服务的是欧洲市场，这是很自然的事情，创业公司通常都是先从“隔壁邻居”开始卖。但与此同时，我们也在服务亚洲国家，而这些国家面临的需求其实非常相似：他们希望拥有一种即使供应商消失也能继续运行、并且可以根据自身文化和需求进行深度定制的技术。

这正是推动我们业务增长的核心因素之一：围绕“控制权”“开源”和“可定制性”构建的技术差异化。

Alex：有没有欧洲政府直接跟你们说过：他们不信任 Google 或 Anthropic，更不希望基于这些公司来构建系统？

Arthur：欧洲政府来找我们，主要原因并不是“不信任某一家美国公司”，而是他们希望自己掌握这项技术，并用它来服务本国公民、提升公共部门效率。

而我们正好提供了一个合适的方案：系统可以部署在他们自己的基础设施上，我们还可以派出前线部署团队，帮助他们真正把系统落地、创造价值。再加上我们本身就是一家欧洲公司，这对欧洲国家来说当然是一个额外的优势。

从更宏观的角度看，欧洲国家把资金投入欧洲的技术公司，这些收入会再次被投资回欧洲，逐步形成一个本土技术生态。老实说，这种模式在美国已经持续运作了 80 年，而欧洲在这方面做得远远不够。

自称“西方开源模型提供者”DeepSeek-V3在Mistral提出的架构上构建

Alex：说到和地域相关的开源公司或项目，你怎么看中国的开源 AI 努力？显然他们最近的声量非常大，而且看起来进展得也很顺利。

Arthur：中国在人工智能方面非常强。我们是最早发布开源模型的公司之一，而他们很快意识到这是一个非常好的策略，并且事实证明他们做得非常成功。

在开源世界里，其实并不存在传统意义上的“竞争”。大家更多是在彼此的基础上继续构建。你可以看到对方做了什么，哪些地方做得好，然后学习和借鉴。

比如我们在 2024 年初发布了第一个稀疏 Mixture of Experts 架构，他们在此基础上构建并发布了 DeepSeek-V3。本质上是相同的架构，因为我们已经把重建这种架构所需要的一切都公开了。

这正是开源的目的所在。只要是投资开源的公司，发布的成果都会被其他开源公司复用。研发在不同实验室之间共享成果时，效率会高得多。

在中国，这种跨实验室的知识共享非常有效。相比之下，美国的情况反而比较低效，因为几乎没有美国公司在真正投资开源。因此，我们在某种程度上承担了“西方开源模型提供者”的角色，而我认为，西方非常需要这样一个角色的存在。

Alex：你怎么看中国的整体战略？在美国，这里一直有一种担忧：如果中国在 AI 上跑得太快，会不会带来风险？

Arthur：中国确实非常强，而且是高度垂直整合的体系。他们有优秀的工程师、有算力、有能源、有完整的产业链，具备竞争所需的一切条件。

但欧洲同样具备这些条件。我并不认为未来会出现“只有一个国家拥有明显领先 AI”的局面。从全球来看，任何足够大的主权经济体，都会希望在 AI 的使用和部署上拥有一定程度的自主性。

正因为如此，未来必然会出现多个 AI 中心：一个在欧洲（由我们主导），一个在中国，此外在美国西海岸也会有一批公司共同构成另一极。

Alex：那你觉得，中国为什么会把发展开源模型视为战略重点？他们似乎并不像你们一样，走全球实施和交付的路线。

Arthur：他们在中国本土就已经拥有非常大的业务。实际上，在中国构建开源模型的公司，很多本身就是云服务提供商。除了创业公司之外，还有像阿里巴巴这样的云厂商。

这种垂直整合，使他们既可以在中国国内创造价值，也可以在他们正在扩张的海外市场中创造价值。比如在亚洲其他地区，我们更多是在中国之外的亚洲市场与他们竞争。

在这种背景下，对他们来说，一个非常自然的策略是：在中国建立一个受保护的本土业务，然后把技术以接近“免费”的方式向外输出，以此进入其他市场，甚至触达美国市场。

如果我站在他们的立场上，我也会做同样的选择。

这家西方开源大模型公司，开源出了DeepSeek-V3背后的架构！头部模型表现都差不多了，Mistral CEO自曝如何赚钱

头部大模型能力接近，重点在于如何为企业创造价值

开源模型可以保障，企业不会被锁死在单一厂商

开源和闭源模型的差距只有几个月，模型能力会越来越垂直

Mistral的优势在于“不是美国公司”

自称“西方开源模型提供者”DeepSeek-V3在Mistral提出的架构上构建

STM32高速公路隧道照明节能控制系统设计-光敏-E18-高亮灯-WIFI(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

系统学习minidump格式：用户态内存状态还原

撕开美国中产滤镜：那条“隐形斩杀线”，为何一碰即碎？

全球干燥水果和蔬菜市场：健康消费浪潮下的增长引擎与产业重构

YOLOv8与OpenVINO结合：CPU推理再提速40%

Qwen2.5跨平台部署挑战：Windows/Linux差异解析