手把手教你部署FunASR语音识别WebUI｜集成speech_ngram_lm

手把手教你部署FunASR语音识别WebUI｜集成speech_ngram_lm_zh-cn模型

1. 引言

1.1 语音识别技术背景

随着人工智能在语音交互领域的广泛应用，自动语音识别（ASR）已成为智能客服、会议记录、字幕生成等场景的核心技术。传统ASR系统部署复杂、依赖环境多，而基于Docker的轻量化部署方案极大降低了使用门槛。

FunASR 是由魔搭（ModelScope）推出的开源语音识别工具包，支持离线/在线模式、端点检测（VAD）、标点恢复和语言模型增强等功能。其中speech_ngram_lm_zh-cn模型通过N-gram语言模型显著提升了中文识别准确率，尤其适用于专业术语或固定表达较多的领域。

1.2 本文目标与价值

本文将带你从零开始部署一个集成了speech_ngram_lm_zh-cn中文语言模型的 FunASR WebUI 系统，涵盖：

Docker镜像拉取与运行
模型加载与服务启动
Web界面操作全流程
常见问题排查

最终实现浏览器上传音频即可获得高精度中文转录结果，并支持SRT字幕导出，适合开发者快速验证和集成。

2. 环境准备与镜像部署

2.1 系统要求

组件	推荐配置
操作系统	Ubuntu 20.04 / CentOS 7+
CPU	Intel i5 及以上
GPU（可选）	NVIDIA显卡 + CUDA 11.8+（提升识别速度3~5倍）
内存	≥8GB
存储空间	≥20GB（含模型缓存）

确保已安装以下基础软件：

# Docker 安装（以 Ubuntu 为例） sudo apt update sudo apt install -y docker.io docker-compose sudo systemctl enable docker --now # 验证安装 docker --version

2.2 拉取并运行定制化镜像

本文使用的镜像是由“科哥”基于官方 FunASR 进行二次开发构建，预集成了speech_ngram_lm_zh-cn模型支持及WebUI界面。

执行以下命令拉取镜像并创建挂载目录：

# 创建模型存储目录 mkdir -p ./funasr-runtime-resources/models # 拉取镜像（替换为实际镜像地址） sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 # 启动容器（CPU模式） sudo docker run -p 7860:7860 -p 10095:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

说明：
-p 7860:7860映射 WebUI 端口
-p 10095:10095映射 WebSocket 服务端口（用于实时流式识别）
--privileged=true赋予容器更高权限以访问设备资源
若有GPU，添加--gpus all参数启用CUDA加速

3. 服务启动与模型加载

3.1 进入容器并启动服务

容器启动后会自动进入 shell 环境。若未自动进入，可通过以下命令进入：

# 查看容器ID docker ps # 进入容器 docker exec -it <container_id> /bin/bash

进入容器后，切换到运行目录并启动服务脚本：

cd /workspace/FunASR/runtime # 启动带 N-gram 语言模型的服务 nohup bash run_server.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --port 10095 \ --certfile 0 > log.txt 2>&1 &

参数解析

参数	作用
`--lm-dir`	指定N-gram语言模型路径，提升中文语义连贯性
`--vad-dir`	启用语音活动检测，自动切分静音段落
`--punc-dir`	自动添加逗号、句号等标点符号
`--certfile 0`	关闭SSL证书验证，简化本地调试
`--port`	设置WebSocket监听端口

3.2 查看日志确认服务状态

tail -f log.txt

正常输出应包含：

INFO:root:Model loaded successfully. INFO:root:WebSocket server started at ws://0.0.0.0:10095

表示服务已就绪。

4. WebUI 使用指南

4.1 访问 Web 界面

服务启动成功后，在浏览器中访问：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

页面加载完成后显示如下界面：

4.2 控制面板功能详解

模型选择

Paraformer-Large：大模型，识别精度高，适合对准确性要求高的场景
SenseVoice-Small：小模型，响应速度快，适合实时对话识别

设备选择

CUDA：使用GPU加速（需NVIDIA驱动支持）
CPU：通用模式，兼容性强

功能开关

✅启用标点恢复 (PUNC)：自动补全句末标点
✅启用VAD：跳过空白片段，提高效率
✅输出时间戳：生成每句话的时间区间，便于后期编辑

点击“加载模型”按钮完成初始化。

5. 语音识别操作流程

5.1 方式一：上传音频文件识别

支持格式

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐采样率为16kHz，单声道，位深16bit。

操作步骤

在“ASR 语音识别”区域点击“上传音频”
选择本地文件并等待上传完成
设置参数：
- 批量大小：建议300秒（5分钟以内）
- 识别语言：auto（自动检测）或手动指定zh
点击“开始识别”

识别完成后，结果展示在下方三个标签页中：

文本结果：纯净文字内容
详细信息：JSON结构数据，含置信度、时间戳
时间戳：按词/句划分的时间范围

5.2 方式二：浏览器实时录音识别

实时录音流程

点击“麦克风录音”按钮
浏览器弹出权限请求，点击“允许”
开始说话，录制完毕后点击“停止录音”
点击“开始识别”处理音频

注意：部分浏览器（如Chrome）需通过HTTPS才能启用麦克风，本地测试建议使用HTTP且关闭安全限制。

6. 结果导出与高级设置

6.1 多格式结果下载

识别完成后可下载三种格式的结果文件：

下载按钮	文件类型	应用场景
下载文本	`.txt`	直接复制粘贴使用
下载 JSON	`.json`	程序解析、二次处理
下载 SRT	`.srt`	视频字幕嵌入

所有输出文件保存在容器内的/workspace/outputs/目录下，命名规则为：

outputs/outputs_YYYYMMDDHHMMSS/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

宿主机可通过挂载同步获取这些文件。

6.2 高级参数调优

批量大小调整

默认值：300秒（5分钟）
范围：60 ~ 600秒
建议：长音频分段处理，避免内存溢出

语言设置策略

场景	推荐设置
纯中文内容	`zh`
英文讲座	`en`
中英混合	`auto`
粤语采访	`yue`

时间戳应用

启用时间戳后可用于：

自动生成视频字幕
快速定位音频关键片段
构建语音索引数据库

7. 性能优化与常见问题

7.1 提升识别准确率的方法

使用高质量音频：16kHz采样率、清晰人声、低背景噪音
开启N-gram语言模型：有效纠正语法错误和同音词误判
配置热词：在/workspace/models/hotwords.txt添加行业术语，例如：
```
人工智能 30 大模型 25 FunASR 40
```
启用标点恢复：提升文本可读性

7.2 常见问题与解决方案

Q1：识别结果不准确？

✅ 检查是否选择了正确的语言模式
✅ 确认音频无严重噪声或失真
✅ 尝试更换为 Paraformer-Large 模型
✅ 添加相关热词提升专有名词识别率

Q2：识别速度慢？

⚠️ 若使用CPU模式，考虑升级至GPU版本
⚠️ 分割超过10分钟的长音频
⚠️ 切换至 SenseVoice-Small 模型加快响应

Q3：无法上传文件？

🔍 检查文件大小是否超过100MB
🔍 确保格式为支持类型（优先使用WAV/MP3）
🔍 清除浏览器缓存重试

Q4：录音无声音？

🔊 确认浏览器已授权麦克风权限
🔊 检查系统麦克风是否被其他程序占用
🔊 调整输入音量增益

8. 总结

本文详细介绍了如何部署一个集成了speech_ngram_lm_zh-cn语言模型的 FunASR WebUI 系统，实现了开箱即用的中文语音识别能力。核心要点包括：

一键式Docker部署：通过预构建镜像大幅降低环境配置难度；
N-gram语言模型加持：显著提升中文语义连贯性和专业词汇识别准确率；
可视化Web操作界面：支持文件上传与实时录音双模式；
多格式结果导出：满足文本分析、字幕制作等多种下游需求；
灵活参数配置：可根据实际场景调整模型、设备与功能选项。

该方案特别适用于教育、会议记录、媒体制作等领域，开发者也可进一步将其集成至SpringBoot、Flask等后端框架中，构建完整的语音处理流水线。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。