news 2026/5/26 11:39:32

挪威国家图书馆用 2PB 华为闪存存储训练大语言模型,解决非英语国家共性问题!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
挪威国家图书馆用 2PB 华为闪存存储训练大语言模型,解决非英语国家共性问题!

挪威国家图书馆的大语言模型训练项目

挪威国家图书馆正在开发一款能够理解挪威语的大语言模型(LLM),并在其 AI 训练数据管道中使用了 2PB 的华为 OceanStor Dorado 闪存存储。图书馆 IT 平台负责人 Marius Husnes 在 2026 年于巴黎举行的华为 ID 论坛上介绍了该项目。

开发自主 LLM 的必要性

目前没有商业 LLM 提供商在开发针对挪威语的本地语言 LLM。任何拥有自己语言的国家,如果没有基于该语言训练的自主 LLM,将处于劣势,因为全球训练的、以英语为基础的 LLM 不会了解该国用本地语言描述的历史、新闻和文化。挪威文化部委托国家图书馆构建自主 AI(LLM),因为该图书馆拥有挪威国内最大的挪威书籍、报纸、网页等数字藏品,且有权接收每一本出版书籍和广播内容的副本,其法定缴存任务不仅限于书籍,还包括收集和保存挪威所有的文化遗产。此外,与挪威报纸达成的协议允许在受版权保护的内容上进行 LLM 训练,Husnes 称:“没有私营公司能做到这一点。”

图书馆开展项目的优势

该图书馆自 2005 年起就开始对藏品进行数字化,已积累了 20PB 的独特数据,采用 3 - 2 - 1 形式存储(3 份副本、2 种媒体类型、1 份异地存储),总计约 60PB。原始文本、声音、动态影像、静态图像和网页内容的数字化过程涉及大量 OCR 扫描,生成了大量元数据,还提供了用于在线访问的 API。

数据处理与存储系统

大部分数据存放在数字磁盘和磁带存档的保存系统中。Husnes 的任务是将这些数据传输到 LLM 训练系统。他指出,瓶颈不在于计算能力,而在于数据质量、清理和管道吞吐量。主要有两个处理阶段。首先是内部计算,使用了英伟达 DGX H200 系统、一个 384 核 CPU 集群和多个华为 OceanStor Dorado 全闪存阵列,闪存总容量达 2PB,这是用于数据管道和训练准备的低延迟存储。数据管道包括数据摄取、清理、去重、格式标准化、验证和准备等步骤。数据通过管道后,会被发送到挪威国家超级计算机 Sigma2 的 Olivia 系统进行实际训练。Olivia 系统是 HPE Cray 超级计算 EX 系统,拥有 448 个 GPU 和 64,512 个 CPU 核心,使用了 5.3PB 的 Cray ClusterStor E1000 存储系统。

面临的问题与挑战

一个大问题是要满足两种不同存储系统的需求。60PB 的保存系统针对耐久性和成本进行了优化,而非快速 IO,读取延迟高,设计用于不频繁访问。而 AI 管道存储则是为高吞吐量、低延迟、并行数据 IO 设计的。Husnes 表示,他发现没有人讨论将 PB 级数据集从存档转移到 AI 数据管道系统并使其通过该系统所涉及的问题,他的团队只能自己摸索。

LLM 训练中的学习内容

LLM 训练正在进行中,Husnes 在演讲结尾总结了团队仍在学习的内容:一是评估,目前没有标准的评估工具来评估挪威自主 LLM,挪威语有两种书面形式、多种方言和历史变化,他们正在临时构建自己的评估工具;二是治理,谁来控制自主 LLM 的访问权限?谁来决定其用途?这些都是机构和政治层面的问题,没有简单的答案;三是编排,让保存存档、本地 AI 环境和国家 Sigma2 超级计算机这三个系统协同工作是一个持续的项目。

结论与思考

一方面,华为存储在欧洲市场正发挥着重要作用;另一方面,任何想要开发自主本地语言 LLM 的国家都不妨与 Husnes 交流,了解其中涉及的问题。正如 Husnes 所说,挪威虽是一个小国,但正在解决每个非英语国家都将面临的问题:如何构建能够反映本国语言、文化和历史的 AI?AI 需要守护者,而不仅仅是建设者。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 11:39:23

如何快速掌握微信QQ消息防撤回的终极指南

如何快速掌握微信QQ消息防撤回的终极指南 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode.com/GitHub_Trending/re/Re…

作者头像 李华
网站建设 2026/5/26 11:39:22

告别乱码!在CentOS7上完美读写Windows NTFS移动硬盘的完整配置流程

告别乱码!在CentOS7上完美读写Windows NTFS移动硬盘的完整配置流程你是否遇到过这样的场景:在CentOS7服务器上挂载Windows格式的移动硬盘后,发现中文文件名全部变成了乱码?作为一名经常需要在Linux和Windows之间切换工作的开发者&…

作者头像 李华
网站建设 2026/5/26 11:39:08

接口测试的5层境界,90%的人卡在第3层

在微服务架构全面普及的今天,接口测试早已不是“调个URL看看返回对不对”的边角料工作,而是成为质量保障体系中最核心的防线。然而大量从业者在接口测试这条路上始终徘徊在中低层次,无法形成真正的技术壁垒。本文从工程实战出发,将…

作者头像 李华
网站建设 2026/5/26 11:39:06

创业团队如何利用Taotoken的TokenPlan套餐有效控制AI开发成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 创业团队如何利用Taotoken的TokenPlan套餐有效控制AI开发成本 对于初创团队而言,在拥抱大模型能力加速产品开发的同时&…

作者头像 李华
网站建设 2026/5/26 11:38:51

CGM与机器学习:解码个性化代谢亚型,重塑精准健康管理

1. 项目概述:从“一刀切”到“一人一策”的代谢健康管理革命作为一名长期关注数字健康与精准营养的从业者,我见证了太多关于血糖管理的困惑与误区。传统上,我们依赖空腹血糖、糖化血红蛋白(HbA1c)这类“静态快照”来评…

作者头像 李华