news 2026/3/26 4:35:03

基于华为昇腾AI处理器的CANN生态全景图系列(二):华为昇腾AI处理器是什么?为什么会跟CANN有关系呢?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于华为昇腾AI处理器的CANN生态全景图系列(二):华为昇腾AI处理器是什么?为什么会跟CANN有关系呢?

昇腾AI基础软硬件平台包含华为Atlas系列硬件及伙伴自有品牌硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX和一站式开发平台ModelArts等。


昇腾AI处理器通过模组、板卡、小站、服务器、集群等产品形态构建面向“云、边、端”的全场景基础设施解决方案。 昇腾384超节点采用对等计算架构与智能互联总线协议,突破冯·诺依曼架构限制,实现内存统一编址与集群通信优化,支撑大规模AI集群协作。 异构计算架构CANN支持系列化芯片硬件差异,全场景AI框架昇思MindSpore可实现云边端协同部署并原生支持大模型训练。昇腾应用使能MindX包含深度学习、智能边缘与行业开发套件,ModelArts提供云原生一站式AI开发平台。


关于昇腾计算:

基于华为昇腾系列(HUAWEI Ascend)AI处理器和基础软件构建Atlas人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程。


昇腾910 AI 训练处理器(云):

昇腾910是华为公司研发的人工智能处理器芯片,于2019年8月23日在深圳发布,采用7nm工艺制程和自研达芬奇架构,半精度算力达256 TFLOPS,功耗310W,主要面向数据中心AI训练场景。该芯片与MindSpore开源计算框架协同,支撑大规模模型训练和分布式计算,应用于医疗影像分析、金融风控建模等领域。

昇腾910是华为公司研发的人工智能处理器芯片,于2019年8月23日在深圳发布,采用7nm工艺制程和自研达芬奇架构,半精度算力达256 TFLOPS,功耗310W,主要面向数据中心AI训练场景。

技术性能

该芯片与MindSpore开源计算框架协同,支撑大规模模型训练和分布式计算,应用于医疗影像分析、金融风控建模等领域。昇腾910B在部分场景性能可对标英伟达A100芯片,910C在DeepSeek推理任务中达到H100芯片性能的60%。华鲲振宇推出的HuaKun AT958 B3服务器搭载昇腾910C芯片,实测性能为上代2.2倍。

昇腾910采用台积电7nm EUV工艺制造,基于华为自研的“达芬奇”架构(麒麟990系列中的NPU单元也是此架构),最多32核心,热设计功耗350W。它的半精度浮点性能高达256TFlops,内核面积182.4平方毫米,运算密度超过NVIDIA V100、Google TPU v3,还有2048个节点组成的AI服务器,整体性能高达512PFlops。

华为曾表示,昇腾910加上全场景AI计算框架MindSpore的推出,标志着华为已完成全栈全场景AI解决方案的构建,也标志着华为AI战略的执行进入了新阶段。


昇腾310 AI 训练处理器(端/边):

华为昇腾310B(Ascend310B)是一款高性能、低功耗的AI处理器,专为边缘计算和推理应用场景而设计。它基于华为自研的达芬奇架构,具备强大的计算能力和高效的运算效率,能够支持多种深度学习框架和算法,为智能安防、智能交通、工业互联网等领域提供卓越的AI推理解决方案。

昇腾310芯片是华为技术有限公司研发的人工智能芯片,属于昇腾系列首款产品,于2018年11月在第五届世界互联网大会上发布,并被评选为年度15项代表性领先科技成果之一 [3] [6]。该芯片采用自研达芬奇计算架构,单颗算力达16T,支持边缘计算场景,可高效处理图像识别、目标检测等任务。

一颗昇腾310芯片可以实现高达16T的现场算力,支持同时识别包括人、物体、交通标志、障碍物在内的两百个不同目标,一秒钟可处理上千张图片,无论在急速行驶的汽车上还是高速运转的生产线,无论是复杂的科学研究还是日常教育活动,昇腾310可以为各行各业提供触手可及的高效算力。


意义:

现在 AI 浪潮风起云涌,到处都在搞 AI 大模型,还有 AI 应用落地。这些工作涉及到巨量的 AI 训练和推理计算需求,就会用到昇腾这样的 AI 芯片。昇腾的对标对象,毫无疑问就是英伟达的 GPU 系列。

因为众所周知的原因,英伟达的 GPU 对我们禁售(现在连阉割版的 H20 都不卖给我们了),所以,昇腾作为国产 AI 芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。

昇腾芯片是一个大系列,主要包括昇腾 310 和昇腾 910 两个子系列。AI Core 是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU 负责非矩阵类复杂计算。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 21:47:01

springboot和vue开发的校园二手市场系统_7frd0waj

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 springbootvue_7frd0waj 开发的校园二手市场系统和 …

作者头像 李华
网站建设 2026/3/25 11:45:04

【资深架构师亲授】:Open-AutoGLM双端部署资源分配黄金法则

第一章:Open-AutoGLM 端侧 vs 云端部署性能权衡在边缘计算与云计算并行发展的背景下,Open-AutoGLM 的部署策略面临端侧与云端之间的性能权衡。选择部署位置不仅影响推理延迟和资源消耗,还直接关系到用户体验与系统可扩展性。部署模式对比 端侧…

作者头像 李华
网站建设 2026/3/25 21:42:48

1、深入探索Windows系统:核心概念、架构与管理机制

深入探索Windows系统:核心概念、架构与管理机制 1. Windows系统发展历程 Windows NT的开发始于1988年10月,最初目标是打造一个具备可移植性,能解决OS/2兼容性、安全、POSIX、多处理、集成网络和可靠性等问题的系统。随着Windows 3.0的成功,系统目标转变为直接支持Windows…

作者头像 李华
网站建设 2026/3/20 6:48:05

44、深入解析Windows操作系统的安全机制

深入解析Windows操作系统的安全机制 在多用户可访问相同物理或网络资源的环境中,防止未经授权访问敏感数据至关重要。操作系统和用户都需具备保护文件、内存和配置设置,防止其被非法查看和修改的能力。下面我们将深入探讨Windows操作系统的安全机制。 1. 安全评级 对软件(…

作者头像 李华
网站建设 2026/3/25 5:42:06

从OCR到控件识别:Open-AutoGLM与Airtest技术路径对比(附性能实测数据)

第一章:从OCR到控件识别的技术演进背景在自动化测试、辅助工具开发和无障碍技术的发展进程中,界面元素的识别方式经历了从依赖图像解析到理解控件结构的深刻变革。早期系统普遍采用光学字符识别(OCR)技术来提取屏幕上的文本信息&a…

作者头像 李华