挪威国家图书馆的大语言模型训练项目
挪威国家图书馆正在开发一款能够理解挪威语的大语言模型(LLM),并在其 AI 训练数据管道中使用了 2PB 的华为 OceanStor Dorado 闪存存储。图书馆 IT 平台负责人 Marius Husnes 在 2026 年于巴黎举行的华为 ID 论坛上介绍了该项目。
开发自主 LLM 的必要性
目前没有商业 LLM 提供商在开发针对挪威语的本地语言 LLM。任何拥有自己语言的国家,如果没有基于该语言训练的自主 LLM,将处于劣势,因为全球训练的、以英语为基础的 LLM 不会了解该国用本地语言描述的历史、新闻和文化。挪威文化部委托国家图书馆构建自主 AI(LLM),因为该图书馆拥有挪威国内最大的挪威书籍、报纸、网页等数字藏品,且有权接收每一本出版书籍和广播内容的副本,其法定缴存任务不仅限于书籍,还包括收集和保存挪威所有的文化遗产。此外,与挪威报纸达成的协议允许在受版权保护的内容上进行 LLM 训练,Husnes 称:“没有私营公司能做到这一点。”
图书馆开展项目的优势
该图书馆自 2005 年起就开始对藏品进行数字化,已积累了 20PB 的独特数据,采用 3 - 2 - 1 形式存储(3 份副本、2 种媒体类型、1 份异地存储),总计约 60PB。原始文本、声音、动态影像、静态图像和网页内容的数字化过程涉及大量 OCR 扫描,生成了大量元数据,还提供了用于在线访问的 API。
数据处理与存储系统
大部分数据存放在数字磁盘和磁带存档的保存系统中。Husnes 的任务是将这些数据传输到 LLM 训练系统。他指出,瓶颈不在于计算能力,而在于数据质量、清理和管道吞吐量。主要有两个处理阶段。首先是内部计算,使用了英伟达 DGX H200 系统、一个 384 核 CPU 集群和多个华为 OceanStor Dorado 全闪存阵列,闪存总容量达 2PB,这是用于数据管道和训练准备的低延迟存储。数据管道包括数据摄取、清理、去重、格式标准化、验证和准备等步骤。数据通过管道后,会被发送到挪威国家超级计算机 Sigma2 的 Olivia 系统进行实际训练。Olivia 系统是 HPE Cray 超级计算 EX 系统,拥有 448 个 GPU 和 64,512 个 CPU 核心,使用了 5.3PB 的 Cray ClusterStor E1000 存储系统。
面临的问题与挑战
一个大问题是要满足两种不同存储系统的需求。60PB 的保存系统针对耐久性和成本进行了优化,而非快速 IO,读取延迟高,设计用于不频繁访问。而 AI 管道存储则是为高吞吐量、低延迟、并行数据 IO 设计的。Husnes 表示,他发现没有人讨论将 PB 级数据集从存档转移到 AI 数据管道系统并使其通过该系统所涉及的问题,他的团队只能自己摸索。
LLM 训练中的学习内容
LLM 训练正在进行中,Husnes 在演讲结尾总结了团队仍在学习的内容:一是评估,目前没有标准的评估工具来评估挪威自主 LLM,挪威语有两种书面形式、多种方言和历史变化,他们正在临时构建自己的评估工具;二是治理,谁来控制自主 LLM 的访问权限?谁来决定其用途?这些都是机构和政治层面的问题,没有简单的答案;三是编排,让保存存档、本地 AI 环境和国家 Sigma2 超级计算机这三个系统协同工作是一个持续的项目。
结论与思考
一方面,华为存储在欧洲市场正发挥着重要作用;另一方面,任何想要开发自主本地语言 LLM 的国家都不妨与 Husnes 交流,了解其中涉及的问题。正如 Husnes 所说,挪威虽是一个小国,但正在解决每个非英语国家都将面临的问题:如何构建能够反映本国语言、文化和历史的 AI?AI 需要守护者,而不仅仅是建设者。