从零部署高精度ASR系统｜FunASR + speech_ngram_lm

从零部署高精度ASR系统｜FunASR + speech_ngram_lm_zh-cn镜像全解析

1. 引言：构建本地化中文语音识别系统的意义

随着人工智能技术的普及，语音识别（Automatic Speech Recognition, ASR）已成为智能客服、会议记录、字幕生成等场景的核心能力。然而，许多企业面临数据隐私保护与网络延迟问题，无法依赖云端API完成实时转写任务。

在此背景下，本地化部署高精度ASR系统成为关键解决方案。本文将围绕由开发者“科哥”基于speech_ngram_lm_zh-cn二次开发构建的FunASR镜像，详细介绍如何从零开始搭建一个支持中文语音识别、标点恢复、时间戳输出和多格式导出的完整WebUI系统。

该镜像整合了阿里巴巴达摩院开源的Paraformer大模型与N-gram语言模型优化技术，在保证高准确率的同时提供友好的用户界面，适用于教育、医疗、会议等多种实际应用场景。

2. 系统架构与核心技术解析

2.1 FunASR 框架概述

FunASR 是由阿里云通义实验室推出的语音识别工具包，支持端到端建模、流式识别、VAD（Voice Activity Detection）、PUNC（标点恢复）等功能。其核心优势在于：

支持离线/在线混合模式
提供ONNX推理支持，兼容性强
集成多种预训练模型，开箱即用

本镜像基于speech_ngram_lm_zh-cn进行增强，通过引入N-gram语言模型提升中文语义连贯性，尤其在专业术语、长句断句方面表现更优。

2.2 核心组件说明

组件	功能
Paraformer-Large	主识别模型，采用非自回归结构，兼顾速度与精度
SenseVoice-Small	轻量级模型，适合低延迟场景
speech_fsmn_vad_zh-cn	中文语音活动检测模块，自动切分语音段落
punc_ct-transformer_zh-cn	基于上下文感知的标点恢复模型
speech_ngram_lm_zh-cn	N-gram语言模型，用于解码阶段打分优化

其中，speech_ngram_lm_zh-cn的加入显著提升了对常见短语、固定搭配的识别准确率，例如“人工智能”、“深度学习”等词汇不易被误分为“人工智能”。

2.3 WebUI 设计亮点

该镜像封装了一个功能完整的Web前端界面，具备以下特点：

支持文件上传与浏览器录音双模式输入
实时显示识别结果与时间戳信息
多种输出格式一键下载（TXT、JSON、SRT）
友好的交互设计，降低使用门槛

整个系统运行于Docker容器中，确保环境一致性，便于跨平台部署。

3. 部署流程详解

3.1 环境准备

硬件要求

CPU：x86_64 或 ARM64 架构
内存：≥ 8GB（推荐）
存储空间：≥ 40GB（含模型缓存）
GPU（可选）：NVIDIA显卡 + CUDA驱动（启用GPU加速）

软件依赖

Docker ≥ 20.10
浏览器（Chrome/Firefox/Safari，支持WebRTC）

注意：若使用ARM64架构服务器（如华为欧拉系统），需明确指定平台拉取镜像。

3.2 镜像获取与加载

在线环境拉取镜像

# 自动适配宿主机架构 docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

指定ARM64架构拉取

docker pull --platform=linux/arm64 registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

内网部署：镜像导出与导入

# 导出镜像为tar包 docker save -o funasr-arm64.tar <IMAGE_ID> # 传输至内网后加载 docker load -i funasr-arm64.tar

3.3 目录挂载与容器启动

创建本地模型存储目录：

mkdir -p ./funasr-runtime-resources/models

启动容器并挂载目录：

docker run -p 7860:7860 -itd --privileged=true \ -v $(pwd)/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

默认服务端口为7860，可通过-p参数修改映射。

3.4 进入容器并启动服务

进入正在运行的容器：

docker exec -it <CONTAINER_ID> /bin/bash

切换至运行目录：

cd /workspace/FunASR/runtime

执行启动脚本（自动下载模型）：

nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

首次运行会自动从OSS下载所需模型文件，耗时约5–10分钟（取决于网络带宽）。

3.5 内网无外联部署方案

对于无法访问公网的内网服务器，建议采用如下流程：

在可联网机器上完成模型下载；

打包/workspace/models目录：

tar -czf models.tar.gz -C /root/funasr-runtime-resources/models .

将压缩包上传至内网服务器对应路径；
启动容器时不执行下载命令，直接调用已存在的模型路径；
使用静态启动方式运行服务：

nohup ./funasr-wss-server-2pass \ --model-dir /workspace/models/damo--speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --vad-dir /workspace/models/damo--speech_fsmn_vad_zh-cn-16k-common-onnx \ --punc-dir /workspace/models/damo--punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir /workspace/models/damo--speech_ngram_lm_zh-cn-ai-wesp-fst \ --hotword /workspace/models/hotwords.txt > online_funasr.log 2>&1 &

4. 使用指南与功能演示

4.1 访问WebUI界面

服务启动成功后，在浏览器中访问：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

页面加载完成后即可看到主界面。

4.2 控制面板配置说明

模型选择

Paraformer-Large：高精度模式，适合正式转录任务
SenseVoice-Small：响应快，适合实时对话场景

设备选择

CUDA：启用GPU加速（需安装NVIDIA驱动及CUDA）
CPU：通用模式，兼容性好

功能开关

✅ 启用标点恢复：自动添加逗号、句号等
✅ 启用VAD：自动分割静音段
✅ 输出时间戳：便于后期编辑定位

4.3 方式一：上传音频文件识别

支持格式包括.wav,.mp3,.m4a,.flac,.ogg,.pcm，推荐采样率为16kHz。

操作步骤：

点击“上传音频”按钮；
设置批量大小（默认300秒）；
选择语言（auto推荐）；
点击“开始识别”；
查看文本、详细信息、时间戳三个标签页的结果。

4.4 方式二：浏览器实时录音

利用WebRTC技术实现免插件录音：

点击“麦克风录音”；
允许浏览器访问麦克风；
开始说话，点击“停止录音”；
点击“开始识别”处理音频。

适用于会议现场记录、课堂讲解等即时转写场景。

4.5 结果查看与导出

识别完成后，结果展示区包含三个子面板：

文本结果：纯净文字内容，支持复制
详细信息：JSON结构，含置信度、时间戳
时间戳：按词/句划分的时间区间

支持导出格式

格式	用途
`.txt`	文档编辑、内容提取
`.json`	程序解析、二次加工
`.srt`	视频字幕嵌入

所有文件保存在outputs/outputs_YYYYMMDDHHMMSS/目录下，每次识别独立生成新文件夹。

5. 性能优化与常见问题处理

5.1 提升识别准确率的实践建议

方法	效果
使用16kHz清晰录音	减少失真干扰
关闭背景噪音	提高信噪比
合理设置热词	提升专有名词命中率
启用N-gram语言模型	增强语义连贯性

可在hotwords.txt文件中添加热词及其权重，例如：

人工智能 50 机器学习 40 自然语言处理 60

每行一个热词，格式为“词语权重”，权重范围1–100。

5.2 加速识别性能的方法

场景	优化策略
识别慢（CPU模式）	切换至CUDA设备
长音频处理卡顿	分段上传，每段≤5分钟
模型加载缓慢	预先下载模型至本地
并发请求延迟高	升级硬件资源配置

Paraformer-Large模型在GPU环境下单路并发识别速度可达实时率3倍以上。

5.3 常见问题排查表

问题现象	可能原因	解决方案
无法打开网页	端口未开放或防火墙拦截	检查7860端口是否放行
上传失败	文件过大或格式不支持	转换为WAV/MP3，控制在100MB以内
录音无声	浏览器权限未授权	检查麦克风权限设置
识别乱码	编码异常或语言设置错误	更改为`zh`或`auto`
模型未加载	路径错误或模型缺失	检查挂载目录与模型完整性

6. 总结

本文系统介绍了基于FunASR与speech_ngram_lm_zh-cn二次开发镜像的本地化语音识别部署全流程，涵盖环境准备、镜像管理、容器启动、服务配置、WebUI使用及性能调优等多个维度。

该方案具有以下核心价值：

高精度识别：结合Paraformer大模型与N-gram语言模型，显著提升中文识别质量；
本地化安全：数据不出内网，满足企业级隐私合规需求；
易用性强：图形化界面支持拖拽上传与实时录音，降低使用门槛；
灵活扩展：支持热词定制、多语言切换、时间戳输出等高级功能；
跨平台部署：兼容x86与ARM架构，适用于边缘设备与私有服务器。

无论是用于会议纪要自动化、教学资源数字化，还是构建专属语音助手，这套ASR系统都提供了稳定可靠的技术底座。

未来可进一步探索方向包括：

集成自定义声学模型微调
对接企业知识库实现领域适应
构建RESTful API供其他系统调用

掌握本地ASR部署能力，是迈向自主可控AI基础设施的重要一步。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零部署高精度ASR系统｜FunASR + speech_ngram_lm_zh-cn镜像全解析