性能↑4.4倍，能效↑40%！Trainium3 UltraServers：让训练和部署AI模型速度更快、成本更低！-平芜编程栈

re:Invent 2025，亚马逊云科技带来一系列重磅发布，掀起全球云计算创新浪潮。为帮助开发者们深入了解各项技术创新成果、上手使用最新功能，特推出本系列解读文章，助您探索云上未来的无限可能！

AI模型规模与复杂度持续提升，正在逼近计算和网络基础设施的极限。客户希望缩短训练时间并降低推理延迟（即AI系统接收输入到生成对应输出的时间）。

如今，训练尖端模型所需的基础设施投入只有少数企业能够承担，而大规模提供AI应用服务则需要大量计算资源，成本很容易失控。即使采用当前最快的加速实例，仅靠增大集群规模也难以突破并行化限制，无法显著缩短训练时间，而实时推理需求则进一步超出单实例架构的能力边界。

re:Invent 2025，亚马逊云科技正式发布Amazon EC2 Trainium3 UltraServers（下文简称Trn3 UltraServers），旨在帮助客户突破这些限制。Trn3 UltraServers基于全新的3nm制程工艺的Trainium3芯片，使各类规模的企业能够更快训练更大的AI模型，以更低成本服务更多用户，让更多机构能够以更低门槛获取支撑未来前沿AI项目所需的算力。

Trainium3 UltraServers

为下一代AI工作负载而生

Trn3 UltraServers在单一系统中集成多达144颗Trainium3芯片，计算性能较Trainium2 UltraServers提升高达4.4倍。这使企业能够处理过去难以实现或成本过高的AI项目：模型训练速度更快，周期从数月缩短至数周；可同时处理更多用户的推理请求；进一步缩短产品上市时间，并降低整体运营成本。

使用OpenAI的开源权重模型GPT-OSS对Trn3 UltraServers进行测试发现，相比Trn2 UltraServers，其单芯片吞吐量提升3倍，响应速度快4倍。这意味着企业在更小的基础设施规模下即可扩展AI应用以应对峰值需求，直接提升用户体验，同时降低单次推理请求的成本。

这些改进源于为AI场景专门设计的Trainium3芯片。该芯片通过先进的设计创新、用于加速芯片间数据传输的优化互连结构，以及能够在处理大型AI模型时消除瓶颈的增强型内存系统，实现了突破性的性能提升。

除了性能增长之外，Trainium3实现显著的节能效果，与前几代相比能效提升40%，在大规模部署中尤为关键，从而能够提供更具成本效益的AI基础设施，同时降低数据中心的整体能耗与环境影响。

专为规模化设计的

先进网络基础设施

亚马逊云科技将Trn3 UltraServer打造为从芯片架构到软件栈的垂直集成系统。该集成的核心是一套专为消除分布式AI计算中常见通信瓶颈而设计的网络基础设施。全新的NeuronSwitch-v1使每台UltraServer的带宽提升2倍，而增强型Neuron Fabric网络则将芯片间通信延迟降低至不足10微秒。

未来的AI工作负载，包括Agent系统、MoE架构和强化学习应用，都需要海量数据在处理器之间无缝流动。亚马逊云科技打造的这一网络体系，使过去难以实现的近乎即时响应型AI应用成为可能，并进一步解锁全新用例，例如可即时处理并执行数据的实时决策系统，以及响应自然、无延迟的流畅对话式AI。

对于有规模化需求的客户，Amazon EC2 UltraClusters 3.0可连接数千台UltraServer，最多可搭载100万颗Trainium芯片，是上一代的10倍，从而为训练下一代基础模型提供所需的基础设施。

如此规模让许多过去无法实现的任务成为可能，包括在万亿token级数据集上训练多模态模型，或为数百万并发用户提供实时推理服务。

客户已在前沿规模上获得显著成果

客户已经从Trainium中获得显著价值。Amazon Bedrock目前已在Trainium3上运行生产级工作负载，充分证明该芯片已具备企业级部署能力。

包括Decart在内的先锋AI企业正借助Trainium3处理实时生成式视频等高要求工作负载。Decart是一家专注高效优化生成式视频与图像模型的AI实验室，为实时互动体验提供技术支持。该公司利用Trainium3实现了帧生成速度提升4倍、成本仅为GPU一半，这使得计算密集型应用规模化落地变得可行，并催生从个性化实时体验到大规模模拟在内的全新互动内容类型。

在Project Rainier项目中，亚马逊云科技与Anthropic合作，将超过50万颗Trainium2芯片连接为全球最大AI算力集群，其规模是训练Anthropic上一代模型所用基础设施的5倍。Trainium3在此基础上进一步扩展UltraCluster架构，为下一代大规模AI算力集群和前沿模型提供更高的性能与可扩展性。

展望下一代Trainium

亚马逊云科技已经着手研发下一代Trainium4，其设计目标是在各项性能指标上实现显著提升，包括至少6倍的FP4处理性能、3倍的FP8性能以及4倍的内存带宽，以支撑下一代前沿模型的训练与推理需求。随着硬件与软件的持续优化，最终的整体性能提升将远高于这些芯片参数本身的提升幅度。

Trainium4在FP8性能上的3倍提升是一次基础性飞跃，使AI模型的训练速度至少提升3倍，或处理至少3倍的推理请求，并可通过持续的软件增强与特定工作负载优化获得更多额外加速。FP8作为行业标准的精度格式，能够在现代AI工作负载中平衡模型准确性与计算效率。

为实现更强的扩展能力，Trainium4将支持NVIDIA NVLink Fusion高速芯片互连技术。通过这一集成，Trainium4、Graviton与Elastic Fabric Adapter（EFA）能够在通用MGX机架内无缝协作，构建兼容GPU与Trainium服务器的高性价比机架级AI基础设施，形成一个灵活且高性能的系统，为高要求的AI模型训练与推理工作负载进行优化。

如需了解更多信息，请参阅Trainium文档与Trainium使用指南。

Trainium文档：

https://awsdocs-neuron.readthedocs-hosted.com/en/latest/about-neuron/whats-new.html

Trainium使用指南：

http://aws.amazon.com/ai/machine-learning/trainium/getting-started

我们将持续推出更多关于re:Invent 2025重磅发布的解读文章，帮助您快速上手！

新用户注册海外区域账户，可获得最高200美元服务抵扣金，覆盖Amazon Bedrock生成式AI相关服务。“免费计划”账户类型，确保零花费，安心试用。

星标不迷路，开发更极速！

关注后记得星标「亚马逊云开发者」

听说，点完下面4个按钮

就不会碰到bug了！

点击阅读原文查看博客！获得更详细内容！