50倍价差,成本下降曲线惊人
DeepSeek V4的API定价出来了,Flash版输入1元/百万token,Pro版12元。同期GPT-5.4和Claude Opus 4.6的调用成本约是它的50倍。回顾前三代产品,2024年初,V2训练成本是GPT-4 Turbo的1/70,靠MLA架构和MoE稀疏架构的组合创新;同年底,V3训练成本560万美元,相比GPT-4的7800万美元降至1/14;紧接着,R1训练成本600万美元,对标GPT-4o约1.2亿美元的训练开支,压到了1/20。奥尔特曼表示AI成本每12个月降10倍,比摩尔定律还猛。
V4在MIT协议下完全开源,发布时间卡在OpenAI上线新Agent功能前一天。其定价并非孤立降价事件,不过成本下降曲线存在争议。谷歌DeepMind负责人哈萨比斯称成本数据“被报小且有误导性”,分析机构SemiAnalysis估算硬件花费远高于5亿美元,但DeepSeek在单次训练成本上优势仍明显。从GPT-4到GPT-4o,OpenAI每token价格降约150倍,DeepSeek API价格仍比其便宜95%。
从算法蔓延到芯片的技术革新
算法层面的突破
V3训练用2048张H800训出对标GPT-4的模型,靠FP8混合精度技术,此前无开源大模型在训练阶段跑通FP8,DeepSeek用细粒度量化策略压低计算成本。
V4改造注意力机制,CSA把每4个token的KV缓存压缩成1个条目,用Lightning Indexer筛选计算;HCA压缩比达128倍,直接全量计算抓全局结构。两种注意力交错配置,配合滑动窗口保留原始KV,降低百万token长文本推理开销。深度求索表态百万上下文将成标配,V4 - Pro处理新token算力只需V3.2的27%,KV缓存只占10%,顶配Pro Max在多项竞赛中成绩优异。
芯片层面的适配
V4技术报告显示在NVIDIA GPU和华为昇腾NPU两个平台验证细粒度专家并行方案,是“原生支持”姿态。方案按“波”调度,加速通用推理和强化学习。
从CUDA到CANN适配,精度对齐最耗时。此前用910C训练有稳定性问题,950PR补上短板。华为昇腾950PR在FP4精度下算力达2 PFLOPS,芯片间互联带宽2TB/s,CANN Next定位无缝替换,让开发者沿用CUDA编程习惯。DeepSeek在昇腾上适配,戳破英伟达软件生态位起点,生态壁垒出现裂缝。
算力变水电,商业化拐点已至
回答行业问题
中信建投划分,R1回答“中国能不能做出世界级模型”,2025年9月R1论文登上Nature封面证明可以;V4回答“能不能在算力封锁下持续进化”以及“大模型能不能变成能赚钱的企业级产品”。
市场竞争与DeepSeek困境
2026年春节期间,字节、阿里、腾讯烧近百亿元拉新。截至2026年2月,豆包活跃用户1.03亿、千问3245万,DeepSeek 2477万排第三。DeepSeek日活半年增长超67%,算力只扩约8.3%,日均算力成本超千万元,今年三次大规模宕机,所以要走效率路线,V4跑在昇腾上。
融资与商业化信号
2025年初DeepSeek拒绝投资,2026年4月17日传出至少100亿美元估值融资,五天后路透社报道阿里和腾讯洽谈投资,估值抬到200亿美元以上,意味着从技术验证期到商业化拐点。
DeepSeek“换芯”昇腾引发连锁反应,阿里、字节、腾讯批量采购昇腾950PR,推动芯片价格上涨。商业化数据印证拐点,大模型从烧钱变赚钱。
政策信号
工信部发布《普惠算力赋能中小企业发展专项行动》,提出“算力银行”和“算力超市”概念,企业按需取用算力。政策从顶层把算力变公共服务,与DeepSeek从供给侧降本交汇,AI将不再是军备竞赛。