130K小时多语言训练数据加持:Granite-Speech-4.1-2B-NAR的WER表现全面解析
【免费下载链接】granite-speech-4.1-2b-nar项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-speech-4.1-2b-nar
在语音识别技术快速发展的今天,IBM推出的Granite-Speech-4.1-2B-NAR模型凭借其创新的非自回归架构和130K小时的多语言训练数据,在词错误率(WER)表现上取得了令人瞩目的成绩。这款基于NLE(非自回归LLM编辑)架构的语音识别模型,专门为低延迟应用场景设计,在保持高准确率的同时大幅提升了推理速度。💡
什么是Granite-Speech-4.1-2B-NAR?
Granite-Speech-4.1-2B-NAR是一个非自回归语音识别模型,它将ASR任务重新定义为条件转录编辑问题。与传统的自回归模型逐词解码不同,该模型通过双向LLM在单次前向传递中编辑CTC假设,实现了更快的推理速度而不牺牲准确性。这个20亿参数模型支持英语、法语、德语、西班牙语和葡萄牙语五种语言。
核心架构解析:为什么WER表现如此出色?
🔧 三层架构设计
模型由三个关键组件构成:
- CTC语音编码器(4.4亿参数)- 16层Conformer编码器,使用字符级目标的CTC训练
- Q-Former投影器(1.6亿参数)- 将编码器输出下采样5倍
- 双向LLM编辑器(10亿参数,LoRA适配)- 基于granite-4.0-1b-base,移除了因果注意力掩码
这种架构利用了身份映射偏差原理,使模型更倾向于复制输入标记,从而将学习能力集中在纠正错误而非完全重建上。
📊 WER性能数据一览
基于130K小时多语言训练数据,模型在多个基准测试中表现出色:
| 数据集 | WER | 数据集 | WER |
|---|---|---|---|
| LibriSpeech clean | 1.29 | MLS EN | 4.77 |
| LibriSpeech other | 2.75 | MLS DE | 4.75 |
| CommonVoice 15 EN | 6.50 | MLS ES | 3.31 |
| CommonVoice 15 DE | 4.73 | MLS FR | 4.52 |
| CommonVoice 15 ES | 4.02 | MLS PT | 11.86 |
| CommonVoice 15 FR | 7.17 | AMI IHM | 7.91 |
| CommonVoice 15 PT | 2.57 | AMI SDM | 19.59 |
| Earnings-22 | 8.48 | GigaSpeech | 10.12 |
| SPGISpeech | 3.04 | TED-LIUM | 3.67 |
| VoxPopuli | 5.83 |
⚡ 推理速度优势
在单块H100 GPU上,模型实现了约1820的RTFx(实时因子),支持批量推理(批量大小128)。这意味着在实际应用中,Granite-Speech-4.1-2B-NAR能够提供接近实时的语音识别体验。
训练数据:130K小时的坚实基础
模型的优异表现离不开其庞大的训练数据基础:
- 总训练时长:约130K小时多语言语音数据
- 支持语言:英语、西班牙语、法语、德语、葡萄牙语
- 数据来源:CommonVoice 15、MLS、LibriSpeech、Libriheavy long、AMI、Granary VoxPopuli、Granary YODAS、Earnings-22、Fisher、CallHome、SwitchBoard等公开数据集
一键安装与快速使用指南
🚀 环境配置
pip install torch==2.9.1 torchaudio==2.9.1 pip install transformers==4.57.6 accelerate==1.13.0 pip install flash-attn==2.8.3 --no-build-isolation🎯 基础使用示例
from transformers import AutoModel, AutoFeatureExtractor model = AutoModel.from_pretrained( "ibm-granite/granite-speech-4.1-2b-nar", trust_remote_code=True, attn_implementation="flash_attention_2" )完整的代码示例可在modeling_nle.py和configuration_nle.py中找到。
与其他模型的对比选择
🏆 何时选择Granite-Speech-4.1-2B-NAR?
- 低延迟场景:需要快速推理的实时应用
- 批量处理:需要同时处理多个音频文件
- 资源受限环境:在保证准确性的前提下优化计算资源
🔍 其他Granite Speech模型推荐
- 追求最高准确率:granite-speech-4.1-2b - 自回归模型,支持标点和大小写
- 需要说话人信息:granite-speech-4.1-2b-plus - 支持说话人归属ASR和词级时间信息
性能优化技巧
📈 提升WER表现的实用建议
- 音频预处理:确保输入音频为16kHz单声道格式
- 批量优化:合理设置批量大小以平衡内存和速度
- 精度选择:使用bfloat16精度进行推理以获得最佳性能
- 特征提取:正确使用feature_extraction_nle.py中的特征提取器
技术实现细节
🛠️ 核心配置文件
- 模型配置:configuration_nle.py
- 特征提取:feature_extraction_nle.py
- 模型实现:modeling_nle.py
- CTC编码器:modeling_ctc.py
- 投影器实现:modeling_projector.py
🔄 工作流程
- CTC编码器生成声学嵌入和初始假设
- 假设与插入槽交错排列
- 投影音频嵌入与交错假设嵌入连接
- 双向LLM在所有位置同时预测编辑操作
- CTC贪婪解码产生最终转录
总结与展望
Granite-Speech-4.1-2B-NAR通过创新的非自回归架构和130K小时的多语言训练数据,在WER表现上达到了业界领先水平。其独特的CTC编码器+双向LLM编辑器设计,不仅保证了高准确率,还显著提升了推理速度,特别适合实时语音识别应用。
随着语音识别技术的不断发展,非自回归模型正成为低延迟场景的重要选择。Granite-Speech-4.1-2B-NAR的成功实践,为语音识别技术的性能优化提供了新的思路和方向。🎯
无论是学术研究还是工业应用,这款模型都值得深入探索和使用。其开源特性也使得开发者能够基于此进行二次开发和优化,推动整个语音识别领域的技术进步。
【免费下载链接】granite-speech-4.1-2b-nar项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-speech-4.1-2b-nar
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考