news 2026/2/17 11:19:59

性能↑4.4倍,能效↑40%!Trainium3 UltraServers:让训练和部署AI模型速度更快、成本更低!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
性能↑4.4倍,能效↑40%!Trainium3 UltraServers:让训练和部署AI模型速度更快、成本更低!

re:Invent 2025,亚马逊云科技带来一系列重磅发布,掀起全球云计算创新浪潮。为帮助开发者们深入了解各项技术创新成果、上手使用最新功能,特推出本系列解读文章,助您探索云上未来的无限可能!

AI模型规模与复杂度持续提升,正在逼近计算和网络基础设施的极限。客户希望缩短训练时间并降低推理延迟(即AI系统接收输入到生成对应输出的时间)。

如今,训练尖端模型所需的基础设施投入只有少数企业能够承担,而大规模提供AI应用服务则需要大量计算资源,成本很容易失控。即使采用当前最快的加速实例,仅靠增大集群规模也难以突破并行化限制,无法显著缩短训练时间,而实时推理需求则进一步超出单实例架构的能力边界。

re:Invent 2025,亚马逊云科技正式发布Amazon EC2 Trainium3 UltraServers(下文简称Trn3 UltraServers),旨在帮助客户突破这些限制。Trn3 UltraServers基于全新的3nm制程工艺的Trainium3芯片,使各类规模的企业能够更快训练更大的AI模型,以更低成本服务更多用户,让更多机构能够以更低门槛获取支撑未来前沿AI项目所需的算力。

Trainium3 UltraServers

为下一代AI工作负载而生

Trn3 UltraServers在单一系统中集成多达144颗Trainium3芯片,计算性能较Trainium2 UltraServers提升高达4.4倍。这使企业能够处理过去难以实现或成本过高的AI项目:模型训练速度更快,周期从数月缩短至数周;可同时处理更多用户的推理请求;进一步缩短产品上市时间,并降低整体运营成本。

使用OpenAI的开源权重模型GPT-OSS对Trn3 UltraServers进行测试发现,相比Trn2 UltraServers,其单芯片吞吐量提升3倍,响应速度快4倍。这意味着企业在更小的基础设施规模下即可扩展AI应用以应对峰值需求,直接提升用户体验,同时降低单次推理请求的成本。

这些改进源于为AI场景专门设计的Trainium3芯片。该芯片通过先进的设计创新、用于加速芯片间数据传输的优化互连结构,以及能够在处理大型AI模型时消除瓶颈的增强型内存系统,实现了突破性的性能提升。

除了性能增长之外,Trainium3实现显著的节能效果,与前几代相比能效提升40%,在大规模部署中尤为关键,从而能够提供更具成本效益的AI基础设施,同时降低数据中心的整体能耗与环境影响。

专为规模化设计的

先进网络基础设施

亚马逊云科技将Trn3 UltraServer打造为从芯片架构到软件栈的垂直集成系统。该集成的核心是一套专为消除分布式AI计算中常见通信瓶颈而设计的网络基础设施。全新的NeuronSwitch-v1使每台UltraServer的带宽提升2倍,而增强型Neuron Fabric网络则将芯片间通信延迟降低至不足10微秒。

未来的AI工作负载,包括Agent系统、MoE架构和强化学习应用,都需要海量数据在处理器之间无缝流动。亚马逊云科技打造的这一网络体系,使过去难以实现的近乎即时响应型AI应用成为可能,并进一步解锁全新用例,例如可即时处理并执行数据的实时决策系统,以及响应自然、无延迟的流畅对话式AI。

对于有规模化需求的客户,Amazon EC2 UltraClusters 3.0可连接数千台UltraServer,最多可搭载100万颗Trainium芯片,是上一代的10倍,从而为训练下一代基础模型提供所需的基础设施。

如此规模让许多过去无法实现的任务成为可能,包括在万亿token级数据集上训练多模态模型,或为数百万并发用户提供实时推理服务。

客户已在前沿规模上获得显著成果

客户已经从Trainium中获得显著价值。Amazon Bedrock目前已在Trainium3上运行生产级工作负载,充分证明该芯片已具备企业级部署能力。

包括Decart在内的先锋AI企业正借助Trainium3处理实时生成式视频等高要求工作负载。Decart是一家专注高效优化生成式视频与图像模型的AI实验室,为实时互动体验提供技术支持。该公司利用Trainium3实现了帧生成速度提升4倍、成本仅为GPU一半,这使得计算密集型应用规模化落地变得可行,并催生从个性化实时体验到大规模模拟在内的全新互动内容类型。

在Project Rainier项目中,亚马逊云科技与Anthropic合作,将超过50万颗Trainium2芯片连接为全球最大AI算力集群,其规模是训练Anthropic上一代模型所用基础设施的5倍。Trainium3在此基础上进一步扩展UltraCluster架构,为下一代大规模AI算力集群和前沿模型提供更高的性能与可扩展性。

展望下一代Trainium

亚马逊云科技已经着手研发下一代Trainium4,其设计目标是在各项性能指标上实现显著提升,包括至少6倍的FP4处理性能、3倍的FP8性能以及4倍的内存带宽,以支撑下一代前沿模型的训练与推理需求。随着硬件与软件的持续优化,最终的整体性能提升将远高于这些芯片参数本身的提升幅度。

Trainium4在FP8性能上的3倍提升是一次基础性飞跃,使AI模型的训练速度至少提升3倍,或处理至少3倍的推理请求,并可通过持续的软件增强与特定工作负载优化获得更多额外加速。FP8作为行业标准的精度格式,能够在现代AI工作负载中平衡模型准确性与计算效率。

为实现更强的扩展能力,Trainium4将支持NVIDIA NVLink Fusion高速芯片互连技术。通过这一集成,Trainium4、Graviton与Elastic Fabric Adapter(EFA)能够在通用MGX机架内无缝协作,构建兼容GPU与Trainium服务器的高性价比机架级AI基础设施,形成一个灵活且高性能的系统,为高要求的AI模型训练与推理工作负载进行优化。

如需了解更多信息,请参阅Trainium文档与Trainium使用指南。

Trainium文档:

https://awsdocs-neuron.readthedocs-hosted.com/en/latest/about-neuron/whats-new.html

Trainium使用指南:

http://aws.amazon.com/ai/machine-learning/trainium/getting-started

我们将持续推出更多关于re:Invent 2025重磅发布的解读文章,帮助您快速上手!

新用户注册海外区域账户,可获得最高200美元服务抵扣金,覆盖Amazon Bedrock生成式AI相关服务。“免费计划”账户类型,确保零花费,安心试用。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/13 12:09:55

小白也能懂的BSHM抠图实战,3分钟快速体验

小白也能懂的BSHM抠图实战,3分钟快速体验 你是不是也遇到过这些情况:想给朋友圈照片换个梦幻背景,却卡在抠图这一步;做电商详情页时,商品模特图背景杂乱,手动抠图耗时又费力;或者想快速生成透明…

作者头像 李华
网站建设 2026/2/4 12:50:57

GPT-OSS-20B性能瓶颈?vLLM推理架构深度解析

GPT-OSS-20B性能瓶颈?vLLM推理架构深度解析 1. 为什么GPT-OSS-20B在网页端总卡顿?真实体验拆解 你是不是也遇到过这样的情况:刚把GPT-OSS-20B镜像部署好,点开“网页推理”界面,输入一句“你好”,等了七八…

作者头像 李华
网站建设 2026/2/15 5:56:38

Speech Seaco Paraformer局域网无法访问?IP绑定配置修改教程

Speech Seaco Paraformer局域网无法访问?IP绑定配置修改教程 1. 问题背景:为什么局域网打不开7860端口? 你兴冲冲地在服务器上跑起了 Speech Seaco Paraformer,浏览器里输入 http://localhost:7860 一切正常——但换台手机或同事…

作者头像 李华
网站建设 2026/2/8 7:50:38

5个开源大模型部署推荐:YOLOv11镜像免配置一键启动

5个开源大模型部署推荐:YOLOv11镜像免配置一键启动 你是不是也经历过——想快速跑通一个目标检测模型,结果卡在环境配置上整整两天?CUDA版本对不上、torch和torchvision版本冲突、ultralytics安装报错、依赖包缺这少那……更别说还要手动下载…

作者头像 李华
网站建设 2026/2/15 6:27:04

Qwen对话重复率高?Top-p采样参数调优教程

Qwen对话重复率高?Top-p采样参数调优教程 1. 为什么你的Qwen对话总在“车轱辘话”? 你有没有遇到过这种情况: 输入“帮我写一封感谢邮件”,Qwen回:“好的,这是一封感谢邮件……” 再问一次同样的问题&…

作者头像 李华
网站建设 2026/2/17 6:16:22

Glyph显存不足?4090D单卡显存优化部署教程来解决

Glyph显存不足?40900D单卡显存优化部署教程来解决 1. 为什么Glyph在4090D上会显存告急? 你刚下载完Glyph镜像,满怀期待地在4090D上启动,结果还没点开网页界面,终端就跳出一行红色报错:“CUDA out of memo…

作者头像 李华