过去一年,大模型竞争的主线很清晰:谁更会推理,谁更会写代码,谁更像一个能干活的智能体。
但DeepSeek-V4这篇技术报告,把焦点推向了另一个更底层的问题:
当AI需要处理一百万Token级别的上下文时,怎样才能既看得远,又跑得动?
这不是简单把“窗口变大”。因为传统Transformer的注意力机制有一个天然问题:上下文越长,计算和显存开销就会急剧上升。换句话说,让模型一次性读超长文档、跨多个代码仓库推理、执行长周期Agent任务,真正的瓶颈不是“模型愿不愿意读”,而是“系统撑不撑得住”。
DeepSeek-V4的核心目标,就是突破这个瓶颈。
一、DeepSeek-V4到底发布了什么?
这份报告介绍的是DeepSeek-V4系列的预览版,包含两个MoE模型:
DeepSeek-V4-Pro:总参数1.6T,每个Token激活49B参数。DeepSeek-V4-Flash:总参数284B,每个Token激活13B参数。
两者都支持一百万Token上下文长度。报告称,DeepSeek-V4-Pro在1M上下文场景下,相比DeepSeek-V3.2只需要约27%的单Token推理FLOPs,以及约10%的KV Cache;DeepSeek-V4-Flash进一步降到约10%的FLOPs和7%的KV Cache。
这组数字的意义很大:如果说过去的长上下文模型像是“能把一本书塞进去,但读起来很贵”,那么DeepSeek-V4想解决的是“把超长上下文变成日常可用能力”。
二、这次升级的关键,不是堆参数,而是改“阅读方式”
DeepSeek-V4沿用了DeepSeekMoE和多Token预测等设计,但真正的新东西集中在三块:
第一是混合注意力架构,也就是CSA和HCA。 CSA可以理解为“先压缩,再挑重点读”:把多个Token的KV缓存压缩成更少的条目,再通过稀疏注意力选择最相关的部分。HCA则是“更狠地压缩,但保持密集注意力”,用于进一步降低长文本场景下的成本。文档中的架构图显示,V4在注意力层交替使用CSA/HCA,在前馈层继续使用DeepSeekMoE,并用mHC强化残差连接。
第二是mHC,Manifold-Constrained Hyper-Connections。 普通读者可以把它理解成一种更稳定的信息传递通道。深层模型在训练时,信息一层层传递,容易出现不稳定。mHC通过对残差映射加约束,让信息传播更稳,同时保留表达能力。报告强调,它的作用是增强传统残差连接,并提升大规模训练稳定性。
第三是Muon优化器。 DeepSeek-V4将Muon用于大部分模块训练,用于更快收敛和更好的训练稳定性。再叠加FP4量化、MoE通信计算重叠、KV Cache管理等工程优化,才让“一百万Token”从论文概念变成可部署方向。
三、为什么“一百万Token”重要?
很多人看到长上下文,第一反应是:这不就是能多塞点文本吗?
其实不是。
一百万Token意味着模型可以面对更接近真实世界的任务:
例如,一次性阅读一套长合同、多个研究报告、几十个技术文档; 例如,在大型代码仓库中跨文件定位问题; 例如,让Agent在更长时间线里保留任务状态; 例如,在企业知识库、科研资料、法律材料中做跨文档分析。
过去模型常常需要“检索一点、读一点、忘一点”。但长上下文能力提升后,模型可以在更完整的信息背景下做判断。DeepSeek-V4报告也明确把长上下文与test-time scaling、长周期任务、Agent工作流和未来在线学习联系在一起。
四、性能表现:V4-Pro冲能力,V4-Flash冲性价比
报告给出的结论很鲜明:
DeepSeek-V4-Pro-Max被定位为最高推理强度模式,在知识、推理、代码、Agent和长上下文等任务上刷新DeepSeek开源模型的表现。文档称它在SimpleQA、Chinese-SimpleQA等知识评测上显著超过领先开源模型,在部分知识任务上缩小了与Gemini-3.1-Pro等闭源前沿模型的差距。
在推理方面,报告称V4-Pro-Max通过扩展推理Token,在标准推理基准上优于GPT-5.2和Gemini-3.0-Pro,但仍略低于GPT-5.4和Gemini-3.1-Pro,作者判断其与最前沿闭源模型仍有约3到6个月差距。
DeepSeek-V4-Flash-Max则更像是效率路线:参数规模更小,知识评测会弱于Pro,但在给足思考预算后,推理任务可以做到相当强的表现。报告称它在复杂推理任务上具备较高性价比。
简单说:
Pro负责冲上限,Flash负责把高能力做便宜。
五、后训练思路:先培养专家,再统一成一个模型
DeepSeek-V4的后训练并不是直接把所有能力混在一起训练。
报告描述的是一个两阶段范式:
先分别培养数学、代码、Agent、指令跟随等领域专家模型; 再通过On-Policy Distillation,把这些专家能力蒸馏进统一模型。
这个思路有点像公司组织能力建设:先让不同部门形成专长,再通过统一流程把能力沉淀到一个总系统里。
它的好处是,模型不必在一个训练阶段里同时兼顾所有目标,而是先在垂直领域做到强,再进行融合。对于复杂模型来说,这可能比“一锅炖”更稳。
六、真正值得注意的是工程能力
很多大模型论文讲算法,DeepSeek-V4这份报告同样花了大量篇幅讲工程。
包括MoE专家并行里的通信计算重叠、TileLang内核开发、确定性Kernel库、FP4量化感知训练、长上下文推理中的异构KV Cache管理,以及磁盘KV Cache存储策略。
这说明一个现实趋势:
大模型竞争已经不是单点算法竞争,而是“架构 + 数据 + 训练 + 推理系统 + 工程细节”的整体竞争。
尤其是在百万Token上下文场景里,模型架构只是第一步。真正能否用起来,还取决于缓存怎么管理、长前缀怎么复用、内存怎么节省、通信怎么隐藏、低精度计算怎么稳定。
这也是DeepSeek-V4最有启发的地方:它不是单纯追求更大的模型,而是在“能力”和“成本”之间重新设计系统。
七、它也不是没有问题
报告在结论部分也承认,为了追求极致长上下文效率,DeepSeek-V4采用了比较大胆而复杂的架构。未来需要进一步把架构简化,提炼出最核心的设计,同时继续研究训练稳定性的底层机制。
此外,报告还提到后续方向包括:探索新的稀疏性维度、降低长上下文交互延迟、继续推进长周期多轮Agent任务、加入多模态能力,以及改进数据筛选和合成策略。
这意味着,DeepSeek-V4更像是一个重要阶段,而不是终点。
它证明了一件事:百万Token上下文的开放模型路线正在变得现实。 但要让这种能力成为普通用户每天稳定使用的产品体验,还需要继续降低延迟、提升鲁棒性、简化架构,并验证更多真实任务。
八、我的判断:DeepSeek-V4的真正信号
DeepSeek-V4最值得关注的,不只是“模型又变强了”。
更重要的是,它释放了三个信号:
第一,长上下文会成为下一代AI基础能力。未来的AI不只是回答问题,而是要能读完整资料、理解完整项目、接手完整任务。
第二,推理能力和上下文长度会绑定在一起。模型思考得越久、任务跨度越长,就越需要稳定保留大量上下文。长上下文不是附加功能,而是test-time scaling继续扩展的地基。
第三,开源模型正在从“追赶能力”走向“重构效率”。如果DeepSeek-V4的效率数据能够在实际部署中兑现,那么它的意义不只是benchmark领先,而是把百万Token级应用的成本曲线向下压。
这可能比单次榜单胜负更重要。
结语
DeepSeek-V4这篇报告的关键词,不是“大”,而是“长”和“省”。
它试图回答的是一个非常现实的问题:
当AI进入长文档、长任务、长链路、长周期Agent时代,模型怎样才能既聪明,又不昂贵?
从这点看,DeepSeek-V4不是一次普通版本升级,而是在为下一阶段AI应用打地基。
当模型真的能高效处理百万Token上下文,我们熟悉的很多工作流都会被重新设计:研究、写作、编程、企业知识管理、法律审查、科研辅助、复杂Agent任务,都可能从“碎片式问答”走向“完整上下文协作”。
这才是DeepSeek-V4最值得认真看的地方。