2026年6月1日,黄仁勋穿着标志性的皮衣走上Computex展前夜的GTC Taipei舞台,进行了长达两小时的主题演讲。
这场演讲信息密度高到几乎没有喘息空间,NVIDIA一口气发布了从芯片到数据中心到操作系统再到机器人的全线产品。
Vera Rubin全面量产,NVIDIA正式从GPU公司转型为AI基础设施公司,给Agent造CPU,给机器人装灵魂,新的计算范式Agent,正在改写一切计算机的工作方式。
黄仁勋宣布和微软联手,开启40年一遇的PC革命。
有用的AI已经降临,Token成了利润单位,计算即收入,全球正在竞相建造AI工厂。
有用的AI,真的来了
黄仁勋开场就抛出了一个明确判断。
有用的AI已经到来。从产业角度来看,Token的需求现在极其旺盛,因为你一旦能做到这种程度,就会想要生产更多。
他拿GitHub的数据来论证。
全球有3000到4000万专业软件开发者,年薪总计约3万亿美元,驱动着全球约100万亿美元规模的产业。
2023年GitHub上的代码提交(commit)为3亿次,2024年4亿次,2025年5亿次,而2026年头几个月就翻了将近3倍。
AI工具把软件开发者的产出放大了数倍,3万亿美元的薪资正在创造接近9万亿美元的生产力。
这些产出的背后,每一个单位都是Token。AI模型通过生成和处理Token来完成推理、规划、执行,当Token从实验品变成利润单位,AI公司就拼命想生成更多Token,就需要更多算力。
黄仁勋把它叫做计算模式的根本转变,从运行应用程序,变成运行Agent。
每次Agent调用LLM思考时,一整排Grace Blackwell NVL72机柜都会被激活。当Agent调用工具时,CPU就会介入执行C编译器、Python、JavaScript或加速计算。整个架构是解耦的、分布式的、异构的计算模式,也是NVIDIA设计Vera Rubin的底层逻辑。
工具使用是Agent架构的关键突破。黄仁勋认为,Agent越多,使用的工具只会越多,软件公司迎来了最好的时代,前提是软件必须以Agent能理解的方式呈现。
NVIDIA积累了20年的CUDA-X加速计算库正好扮演这个角色。从计算光刻(cuLitho)到决策优化(cuOpt),从基因组学(Parabricks)到物理模拟(PhysicsNeMo),从稀疏求解器(cuDSS)到AI研究(AI-Q),这些加速库现在都成了Agent可以调用的工具。每套库附带Agent可学习的技能手册,AI读完手册就能掌握使用方法。
Vera Rubin与DSX
"Vera Rubin is in full production. The supply chain we created for Vera Rubin is twice as large as Grace Blackwell. "(Vera Rubin已经全面量产。我们为Vera Rubin构建的供应链规模是Grace Blackwell的2倍。)
黄仁勋站在Vera Rubin的五大机架系统前面宣布Vera Rubin已经全面量产。
Vera Rubin是一套为Agent运算设计的多机架、Pod规模超级计算系统,由7颗全新芯片组成,全部采用台积电3纳米工艺。
核心是Vera Rubin NVL72,负责Agent的思考环节,涵盖提示处理、上下文理解、推理和规划。
单颗GPU集成6万亿晶体管,单板超过1.8万个组件,搭配来自美光、SK海力士和三星的HBM4内存。NVLink交换机托盘支持热插拔,采用PCB中板连接,彻底消除电缆。
整个第三代MGX机架包含18个计算托盘和9个NVLink交换机托盘,总计130万个组件,液冷母线承载超过5000安培电流,相当于20辆电动汽车全力加速时的电流。
紧邻NVL72的是Vera CPU机架,单机架容纳256颗Vera CPU,全部液冷,负责编排AI模型、调度KV缓存、启动工具。
Groq LPX机架提供超低延迟推理,256颗Groq LPU分布在16个托盘上,SRAM带宽达每秒40PB。
BlueField-4 STX处理Agent的记忆存储、安全加密和静态数据保护。
网络层使用NVIDIA Spectrum-X以太网光子交换机,全球首个采用200G共封装光学技术的以太网交换机,激光芯片基于磷化铟材料,同样由台积电CoWoS工艺封装。
微软、戴尔和CoreWeave已经拿到了Vera Rubin NVL72工程样机。
围绕Vera Rubin,NVIDIA推出了DSX,一套面向AI工厂的基础设施蓝图。
"So this is our ecosystem. We call it DSX. RTX is for our GPU, DGX is for our systems, and now DSX — basically infrastructure."(这是我们的生态系统。我们叫它DSX。RTX是我们的GPU,DGX是我们的系统,而DSX,基本上就是基础设施。)
DSX Sim基于Omniverse数字孪生,让合作伙伴在实际下单任何机架之前,就在虚拟环境中完成布局规划、电力模拟、冷却设计和网络验证。
工厂上线后,DSX OS负责系统配置、运维监控和故障修复,将已安装的系统转化为可信的、多租户的、弹性的AI就绪算力。
DSX MaxLPS动态分配电力,将闲置功率调度到需要计算的地方, rack内的功率平滑处理则消除峰值电流波动。DSX Flex让AI工厂成为灵活的能源资产,读取电网实时信号,在电网需要时回退功率。
黄仁勋预测,到2030年底前将有100GW的AI工厂上线。
Grace Blackwell时代积累的运行经验让NVIDIA在系统可靠性和软件生态寿命上具备显著优势。
黄仁勋指出,从Hopper到Grace Blackwell,每隔几年AI技术就经历一次根本性变化,从CNN到Transformer再到MoE再到Agentic系统。架构的灵活性和生态的丰富度决定了系统能运行多久,NVIDIA的CUDA生态保证了其系统的资产寿命远超竞争对手。
造给Agent的CPU,重写PC
黄仁勋把话题从数据中心拉回到了CPU这个最基础的部件。
新的PC革命已经来临:"All of the CPUs until now were created for people. We were the users, we were the renters. The way we use CPUs — we live in a world counted by seconds. Agents are impatient. They don't live in a world that is counted in seconds. They live in a world counted in nanoseconds."(迄今为止所有CPU都是为人设计的。我们是用户,我们是租户。我们使用CPU的方式以秒计时。Agent没有耐心,它们的世界以纳秒计时。)
为人类设计的CPU和为Agent设计的CPU存在本质区别。
人类点击一下等待几秒完全可以接受,Agent调用一个工具多等一纳秒就意味着旁边GPU的昂贵算力被白白浪费。
基于这个判断,NVIDIA从零开始设计了Vera CPU架构,一颗自主数据中心CPU核心搭配可扩展一致性总线。
全世界前所未见的CPU诞生了。
单线程性能世界第一,每个时钟周期获取、解码、执行的指令数要尽可能高,因为Agent需要极低的单次处理延迟。
带宽世界级,包括每个核心的带宽和芯片总带宽。Agent系统是解耦分布式的,数据要在核心之间、CPU和GPU之间、CPU和存储之间高速移动,网络本身成了瓶颈。
超高能效,CPU不能占用太多功率,要为旁边负责生成Token的GPU留出空间。
Vera搭载NVIDIA自主设计的Olympus核心,88个核心在单片mesh上互联,10宽解码引擎,神经网络分支预测器每个周期评估2个跳转分支,搭配全新图引擎预取器预测下一次数据获取。
采用LPDDR5X内存,带宽达1.2TB/s,是市场最高性能CPU的2到3倍,峰值内存延迟比x86低40%。
片上可扩展一致性总线带宽3.6TB/s,核心间通信速度比传统CPU快50%,避免了跨芯片边界的数据传输开销。
Vera也是首款采用PCIe Gen 6的CPU,并支持NVLink片间互连,既能连接GPU,也能扩展到多CPU配置。
性能数据相当直观。SQL查询快3倍,纽约证券交易所的实时流处理快6倍,这得益于单线程执行速度、核心间带宽和片外带宽的综合优势。
Agent沙箱性能是x86的1.8倍。
黄仁勋说,能在一项成熟的真实工作负载上实现几倍的性能提升,在CPU领域几乎闻所未闻,以往能做到5%的提升就已经很难得。
Vera的订单已经进来,他称之为NVIDIA历史上增长最快、最成功的产品发布。
早期客户都是Agentic AI领域的创新公司,这是一个全新的市场,它的规模很可能超过传统CPU市场,因为Agent的数量将远超人类,而且Agent极其没有耐心。
说完从零设计给Agent用的数据中心级CPU,同一套Agentic计算范式,NVIDIA和微软把它搬到了PC上。
RTX Spark成了新革命的起点。
"I am certain what's going to happen here is that the PC, 10 years from now — the PC that you think about today, a tool where you launch applications, click and type — is going to be completely different."(我确信,10年后的PC将和今天截然不同,不再是一个你启动应用、点击、打字的工具。)
黄仁勋回顾了PC产业的40年历史。
Windows 95让PC从企业设备变成了消费电子产品,每个人都有了一台。
今天,微软和NVIDIA正在联手重做一遍PC。
新的操作系统将是旧操作系统加上大语言模型,大语言模型在某种程度上扮演了当年DirectX的角色,作为PC的智能扩展层。应用层将被Agent运行时所取代。
RTX Spark芯片融合了Blackwell架构RTX GPU和20核Grace CPU,与联发科合作设计,台积电3纳米工艺制造,集成70亿晶体管。
拥有6144个Tensor Core,AI算力达1 PFLOPS,统一内存128GB,GPU与CPU通过NVLink融合。
黄仁勋说,NVIDIA 33年积累的全部软件都能在这颗芯片上运行,CUDA、数字生物学、地震处理、天体物理、基因组学、AI、计算机图形学,加上微软精心优化的全部Windows应用,做到了真正的全兼容。
基于RTX Spark,NVIDIA发布了一整条全新的Windows产品线,覆盖笔记本电脑、台式机和工作站三个形态。
搭载RTX Spark芯片,台式机形态可以7×24小时运行本地Agent,不受云端计量限制,连接家里所有设备,成为个人AI助理。
旗舰形态是DGX Station,768GB内存,20 PFLOPS算力,8TB/s内存带宽,可以运行万亿参数模型,放在开发者桌边作为本地大模型开发平台。
黄仁勋描绘了一个更具想象力的未来场景。
每个家庭终将拥有一台AI超级计算机,它连接你的所有设备,运行各种Agent和助手,全天候帮你处理事务。
他说,未来的PC可能会更像R2-D2和C-3PO,而不是今天那个你打开来启动应用的工具。
100%的PC产业厂商都加入了这场PC重塑运动,一个全新的产品家族就此诞生。
万物皆Agent
Agentic计算范式不只运行在云端和PC上,它会渗透到一切计算设备中。
黄仁勋列了一张很长的清单,机器人、自动驾驶汽车、卫星、基站、农业设备、工业装备,甚至连未来的基站都要具备Agent能力,理解流量模式并与其他基站协调以提升频谱效率。
他说,未来将有数十亿甚至数百亿的Agentic计算设备运行在世界各地。
支撑这一切的底座是模型。
NVIDIA发布了Nemotron 3 Ultra,一个基于SSM(状态空间模型)与MoE(混合专家)混合架构的开放模型。
黄仁勋称它是世界首个采用这种混合架构的模型,推理速度比世界最佳开源模型快5倍,运行成本低30%。
模型本身、训练数据集、训练脚本全部开源。NVIDIA的目标很明确,让你拿到全部材料后加上自己的专业知识,把它变成你自己的专有模型。
NVIDIA Agent Toolkit for Enterprise AI是面向企业的Agent操作系统,包含四个层级。
模型层提供可修改的Nemotron等开源模型。
Harness层提供OpenShell、Hermes、Claude Code、Codex等编排框架,其中OpenShell已开源,Red Hat、Canonical、微软等公司正在采纳。
工具与技能层提供CUDA-X加速库,Agent可以调用这些经过20年优化的专业工具。
运行时层针对NVIDIA AI平台全面优化,可在任何云端、本地或边缘设备上运行。
黄仁勋与Cadence合作展示了芯片设计超级Agent。
在NVIDIA内部,数千名芯片工程师每年耗费数十亿计算小时进行芯片验证,一个Bug就可能延误芯片数月。
Cadence和NVIDIA构建的设计验证Agent由Codex编排,调用Cadence Xcelium仿真和JasperGold形式化验证,利用专家子Agent处理RTL生成、测试平台创建、回归测试和调试。原本需要数周的验证周期缩短到数小时,提速超过40倍。
黄仁勋说,NVIDIA将雇佣数十万个Cadence超级Agent来加速自己的芯片设计流程。
CrowdStrike、ServiceNow、Palantir、SAP等企业软件巨头也都参与了Agent生态构建。
物理AI是另一个重点。
NVIDIA发布了Cosmos 3,一个基于混合Transformer架构的开放物理AI基础模型,包含自回归Transformer用于推理和规划,以及扩散Transformer用于生成下一帧内容。
Cosmos 3能充当视觉语言模型理解物理世界场景,能生成物理准确的合成视频,能作为仿真器进行策略训练闭环,还能通过后训练成为动作条件世界模型OmniDreams,逐帧预测未来。模型、数据和训练方法同样全部开源。
配套发布的还有Alpamayo 2 Super。
这是一个面向自动驾驶的开放模型,已适配NVIDIA DRIVE Hyperion平台。
黄仁勋透露,签约NVIDIA DRIVE Hyperion的汽车品牌约占全球80%的汽车制造商,连接的出行服务约占全球97%。
人形机器人方面,NVIDIA发布了Isaac GR00T参考人形机器人平台。
这个平台31个自由度,身高6英尺,体重150磅,每只手25个自由度由Sharpa制造。
搭载Jetson Thor芯片和全套NVIDIA软件栈,包括Isaac Lab仿真环境、Isaac Teleoperation遥操作系统、Omniverse合成数据生成和Isaac ROS部署框架。
这是面向高校和研究机构的参考平台,研究者不用从零搭建硬件就能开始机器人AI研究。
整场演讲的结尾,黄仁勋把所有线索收束成了一个清晰的方向。
Agent计算模式是未来10年的核心范式,每个公司都会运行Agent,都需要自己的Agent操作系统。
NVIDIA从云端的Vera Rubin到桌面的RTX Spark,从数据中心的DSX到机器人上的GR00T,同一套Agentic架构在不同形态的设备上反复出现。
NVIDIA也不再只是一家GPU公司,它已经进化为AI基础设施公司,帮助全球客户建造和运营AI工厂。
参考资料:
https://www.youtube.com/watch?v=wSp6AiNIrsY