FunASR语音识别WebUI实战｜集成speech_ngram_lm

FunASR语音识别WebUI实战｜集成speech_ngram_lm_zh-cn精准识别

1. 背景与目标

随着语音交互技术的普及，高精度、低延迟的中文语音识别系统在智能客服、会议转录、教育辅助等场景中需求日益增长。阿里云开源的FunASR工具包凭借其模块化设计和高性能推理能力，成为构建本地化语音识别服务的重要选择。

本文基于“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”这一定制镜像，深入讲解如何部署并使用一个集成了N-gram语言模型（speech_ngram_lm_zh-cn）的 WebUI 系统，实现高准确率的中文语音识别，并支持实时录音、文件上传、结果导出等完整功能。

通过本实践，你将掌握： - FunASR WebUI 的本地部署流程 - N-gram语言模型对识别精度的提升机制 - 多种输入方式下的识别操作方法 - 结果导出与后处理技巧 - 常见问题排查策略

2. 核心组件解析

2.1 FunASR 框架简介

FunASR 是阿里巴巴通义实验室推出的语音识别工具库，支持端到端建模、流式识别、标点恢复、VAD（语音活动检测）等功能。其核心优势包括：

支持 ONNX 推理，兼容 CPU/GPU 部署
提供 Paraformer、SenseVoice 等多种先进模型
内置 VAD + PUNC 联合模型，实现自然断句与标点添加
开放 SDK 与 API 接口，便于二次开发

本次使用的镜像是基于官方版本进行 WebUI 二次开发，并重点集成了speech_ngram_lm_zh-cn语言模型，用于提升特定领域或专业术语的识别准确率。

2.2 speech_ngram_lm_zh-cn 语言模型的作用

传统的端到端语音识别模型依赖于神经网络解码器预测文本序列，但在面对专业词汇、数字组合、同音词歧义时容易出错。引入N-gram语言模型可以有效缓解此类问题。

N-gram 模型原理简述

N-gram 是一种统计语言模型，通过计算前 N-1 个词出现条件下第 N 个词的概率来评估句子的合理性。例如：

Bi-gram (N=2): P("你好" | "早上") > P("泥嚎" | "早上")
Tri-gram (N=3): P("今天天气好" | "昨天", "晴朗") 更合理

在 FunASR 中的应用

speech_ngram_lm_zh-cn是一个预训练的中文 N-gram 模型，集成在解码过程中作为外部打分器（FST-based rescoring），与神经网络输出联合决策最终文本。它能显著改善以下情况的识别效果：

场景	无 LM	含 N-gram LM
数字表达	“一八零” → “一百八十”	✅ 正确还原
专有名词	“通义千问” → “同义千文”	✅ 准确识别
同音纠错	“公式” → “公事”	✅ 自动纠正

提示：该模型适用于通用中文场景，若需更高精度，可结合热词（hotwords）或微调模型进一步优化。

3. 系统部署与运行

3.1 运行环境准备

确保满足以下条件：

操作系统：Linux（推荐 Ubuntu 20.04+）或 WSL2
Python ≥ 3.8
Docker（可选，推荐用于快速启动）
显卡驱动（CUDA 支持，非必需但强烈建议）

3.2 镜像拉取与容器启动

# 创建模型存储目录 mkdir -p ./funasr-runtime-resources/models # 拉取官方镜像（CPU版） sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12 # 启动容器并挂载模型目录 sudo docker run -p 10096:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

3.3 启动 FunASR 服务

进入容器后执行：

cd /workspace/FunASR/runtime nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

关键参数说明：

参数	作用
`--lm-dir`	指定 N-gram 语言模型路径，启用 FST 重打分
`--hotword`	加载自定义热词文件，提升关键词命中率
`--punc-dir`	启用标点恢复模型
`--vad-dir`	使用 VAD 实现自动切分语音段落

服务启动后，默认监听ws://0.0.0.0:10095的 WebSocket 接口。

4. WebUI 功能详解与使用流程

4.1 访问 WebUI 界面

服务正常运行后，在浏览器中访问：

http://localhost:7860

或从远程设备访问：

http://<服务器IP>:7860

页面加载成功后显示如下界面：

4.2 控制面板配置

模型选择

Paraformer-Large：大模型，识别精度高，适合高质量音频
SenseVoice-Small：小模型，响应速度快，适合实时对话

推荐优先使用 Paraformer-Large 配合 N-gram LM 获取最佳效果。

设备选择

CUDA：GPU 加速模式，大幅缩短长音频处理时间
CPU：通用模式，无需显卡即可运行

系统会根据硬件自动推荐模式。

功能开关

功能	说明
启用标点恢复 (PUNC)	自动为识别结果添加逗号、句号等标点
启用语音活动检测 (VAD)	自动分割静音段，避免无效识别
输出时间戳	返回每个词/句的时间区间，便于后期编辑

建议全部开启以获得结构化输出。

4.3 使用方式一：上传音频文件识别

支持格式

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐采样率为16kHz，单声道，以匹配模型训练数据分布。

操作步骤

点击「上传音频」按钮，选择本地文件
设置识别参数：
批量大小：默认 300 秒（5分钟），最大支持 600 秒
识别语言：推荐auto，也可手动指定zh（中文）、en（英文）等
点击「开始识别」
查看结果标签页：
文本结果：纯净文本，可直接复制使用
详细信息：JSON 格式，含置信度、时间戳等元数据
时间戳：按句划分的时间区间列表

4.4 使用方式二：浏览器实时录音

操作流程

点击「麦克风录音」按钮
浏览器弹出权限请求，点击「允许」
对着麦克风清晰发音
点击「停止录音」结束录制
点击「开始识别」处理音频

注意：请确保麦克风工作正常且环境噪音较低，否则会影响识别质量。

5. 结果导出与后处理

5.1 导出格式说明

识别完成后，可通过三个按钮下载不同格式的结果：

按钮	文件格式	用途
下载文本	`.txt`	纯文本内容，适合文档整理
下载 JSON	`.json`	包含完整元数据，适合程序解析
下载 SRT	`.srt`	字幕文件，可直接导入视频剪辑软件

所有输出文件保存在：

outputs/outputs_YYYYMMDDHHMMSS/

示例目录结构：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

5.2 SRT 字幕格式示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

该格式广泛支持于 Premiere、Final Cut Pro、剪映等主流视频编辑工具。

6. 性能优化与常见问题

6.1 提升识别准确率的建议

方法	效果
使用高质量音频（16kHz, 单声道）	减少编码失真
启用 N-gram 语言模型	改善数字、专有名词识别
添加热词（hotwords.txt）	强制模型关注特定词汇
清晰发音，控制语速	降低误识率
后期降噪处理	提升信噪比

6.2 常见问题及解决方案

Q1：识别结果不准确？

✅ 检查是否启用了speech_ngram_lm_zh-cn模型
✅ 确认音频采样率为 16kHz
✅ 尝试切换至 Paraformer-Large 模型
✅ 添加热词增强关键词识别

Q2：识别速度慢？

✅ 检查是否使用 CUDA 模式
✅ 分段处理超过 5 分钟的长音频
✅ 考虑使用 SenseVoice-Small 模型加速

Q3：无法上传音频？

✅ 检查文件格式是否支持
✅ 文件大小建议小于 100MB
✅ 确保网络连接稳定

Q4：录音无声？

✅ 浏览器是否授予麦克风权限
✅ 系统麦克风是否被其他应用占用
✅ 麦克风音量是否过低

7. 高级配置与扩展建议

7.1 自定义热词（Hotwords）

编辑/workspace/models/hotwords.txt文件，每行一个词条：

通义千问 FunASR 语音识别 AI大模型

重启服务后生效，可显著提升这些词的识别概率。

7.2 批量处理脚本示例（Python）

import requests import json def asr_recognize(audio_path): url = "http://localhost:7860/api/transcribe" files = {"audio": open(audio_path, "rb")} data = { "language": "zh", "punc": True, "vad": True, "timestamp": True } response = requests.post(url, files=files, data=data) return response.json() result = asr_recognize("test.wav") print(result["text"])

可用于自动化批量转录任务。

8. 总结

本文围绕“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”这一定制镜像，系统介绍了从部署、配置到实际使用的全流程。通过集成N-gram语言模型，该方案显著提升了中文语音识别的准确性，尤其在数字、专有名词和同音词场景下表现优异。

核心价值总结如下：

高精度识别：Paraformer + N-gram LM 联合解码，有效抑制误识
易用性强：提供图形化 WebUI，支持上传与实时录音
多格式导出：一键生成 TXT、JSON、SRT 文件，适配多种下游应用
可扩展性好：支持热词注入、API 调用、批量处理等高级功能

未来可进一步探索方向包括： - 微调模型适应垂直领域（如医疗、法律） - 集成 Whisper-Finetune 混合架构 - 构建 ASR + LLM 联合推理管道

对于开发者而言，此项目不仅是一个开箱即用的语音识别工具，更是一个理解现代语音识别系统架构的良好范例。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。