news 2026/5/26 15:57:34

软件模拟实现200TFLOP FP64计算,为科学计算加速

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
软件模拟实现200TFLOP FP64计算,为科学计算加速

某中心利用软件模拟实现200 teraFLOP FP64计算性能

根据媒体报道,某中心正采用软件模拟来提升其AI加速器在高性能计算(HPC)和科学应用中的双精度浮点计算(FP64)性能。这一策略随着其新一代GPU的推出而公布,该GPU可提供33 teraFLOPS的峰值FP64性能,较前代产品略有下降。

通过软件模拟,该中心的CUDA库可实现高达200 teraFLOPS的FP64矩阵性能,这比其上一代加速器的硬件能力高出4.4倍。该中心超级计算产品高级主管表示,模拟的精度与张量核心硬件相当甚至更高。然而,另一家机构的专家对模拟FP64在物理科学模拟中的有效性,相对于基准测试的表现提出了质疑。

FP64因其动态范围(能表示超过184亿亿个独立数值,而AI模型中常用的FP8仅能表示256个)对科学计算仍然至关重要。与AI工作负载不同,HPC模拟需要高精度以防止误差累积导致系统不稳定。

利用低精度数据类型模拟FP64的概念可追溯到20世纪中期。2024年初,来自某中心的研究人员发表论文,论证了FP64矩阵操作可在张量核心上分解为多个INT8操作,从而获得高于原生硬件的性能。这种方法被称为Ozaki方案,构成了该中心去年底发布的FP64模拟库的基础。该中心主管确认,模拟计算保持了FP64的精度,仅在硬件执行方法上有所不同。

现代GPU配备了低精度张量核心,例如新一代GPU中可提供35 petaFLOPS稠密FP4计算的张量核心。这些核心的速度比专用于FP64的组件快1000倍以上。该中心主管解释,正是这些低精度核心的效率促使他们探索将其用于FP64模拟,这与超级计算中利用现有硬件的历史趋势一致。

另一家机构对FP64模拟的准确性表示了保留意见。其专家指出,这种方法对于良态数值系统(如高性能Linpack基准测试)表现良好,但在材料科学或燃烧代码等条件较差的系统中可能会出现问题。他还强调,该中心的FP64模拟算法不完全符合IEEE标准,未能考虑正负零或“非数字”错误等细节。这些差异可能导致小误差传播并影响最终结果。该专家补充说,Ozaki方案大约使FP64矩阵的内存消耗翻倍。该机构即将推出的MI430X将专门利用其小芯片架构增强双精度和单精度硬件性能。

该中心主管承认存在一些限制,但认为像正负零这样的问题对大多数HPC从业者来说并不关键。该中心已开发补充算法来检测和缓解诸如非数字和无穷大数字等问题。他表示,增加的内存开销是相对于操作而非整个应用而言的,典型的矩阵大小只有几千兆字节。他认为,IEEE合规性问题在矩阵乘法案例中通常不会出现,尤其是在双精度通用矩阵乘法(DGEMM)操作中。

模拟主要使依赖稠密通用矩阵乘法操作的部分HPC应用受益。另一位专家估计,60%到70%的HPC工作负载,特别是那些依赖向量融合乘加的工作负载,从模拟中获益甚微或没有。对于像计算流体动力学这样向量密集型的工作负载,该中心的新GPU必须使用其CUDA核心中速度较慢的FP64向量加速器。该中心主管反驳说,理论上的FLOPS并不总能转化为可用的性能,尤其是在内存带宽成为瓶颈时。新一代GPU拥有22 TB/s的HBM4内存,预计在这些工作负载中能提供更高的实际性能,尽管其向量FP64性能较慢。

随着采用该中心新一代GPU的新型超级计算机投入运行,FP64模拟的可行性将受到检验。鉴于其基于软件的性质,算法可以随着时间的推移而改进。另一家机构的专家表示,他们也在通过软件标志探索在MI355X等芯片上实现FP64模拟。他强调,IEEE合规性将通过保证结果与专用硅芯片的一致性来验证该方法的有效性。他建议业界应建立一套应用来评估模拟在不同用例中的可靠性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 12:27:05

基于PHP+MySQL的自主可控的在线点餐小程序源码

温馨提示:文末有资源获取方式面对日益高涨的线上消费需求,餐饮商家如何拥有一套既能贴合自身特色,又能安全稳定运营的点餐系统?答案在于选择一套真正开放、可自主掌控的源码系统。下面介绍的这款高性能在线点餐小程序源码系统&…

作者头像 李华
网站建设 2026/5/24 13:18:10

AI 写论文哪个软件最好?虎贲等考 AI 凭全流程闭环成毕业论文首选

还在纠结 AI 写论文哪个软件最好?对着五花八门的工具挑花眼,试了多款却要么只懂文字拼接,要么文献漏洞百出,要么格式规范完全不符高校要求?作为深耕论文写作科普的博主,后台每天都被 “毕业论文 AI 工具怎么…

作者头像 李华
网站建设 2026/5/20 15:54:27

国外研究文献网站使用指南:如何高效查找与获取学术资源

刚开始做科研的时候,我一直以为: 文献检索就是在知网、Google Scholar 里反复换关键词。 直到后来才意识到,真正消耗精力的不是“搜不到”,而是—— 你根本不知道最近这个领域发生了什么。 生成式 AI 出现之后,学术检…

作者头像 李华
网站建设 2026/5/20 9:28:21

导师严选2026 TOP8 AI论文工具:MBA开题报告全测评

导师严选2026 TOP8 AI论文工具:MBA开题报告全测评 2026年MBA论文写作工具测评:为何需要一份权威榜单? 在当前AI技术快速发展的背景下,MBA学生在撰写开题报告和论文过程中,面临诸多挑战。从选题构思到文献综述&#x…

作者头像 李华
网站建设 2026/5/20 23:44:21

java_ssm107网上蛋糕店商城销售系统的设计与实现_idea项目源码

目录 具体实现截图项目背景与意义技术架构与功能模块创新点与优势应用价值 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 项目背景与意义 随着电子商务的快速发展,线上蛋糕销售成…

作者头像 李华
网站建设 2026/5/24 23:07:54

富文本编辑器插件如何优化Word文档粘贴性能?

重庆XX教育集团项目评估与技术方案 ——基于信创环境的富文本编辑器增强模块开发纪实 一、需求分析与技术评估 1. 核心需求矩阵 需求分类具体要求技术挑战点内容粘贴Word/微信公众号图文粘贴(含图片自动上传)IE8下Clipboard API兼容性、微信公众号反爬…

作者头像 李华