基于FunASR语音识别镜像快速搭建ASR服务｜科哥二次开发版-平芜编程栈

基于FunASR语音识别镜像快速搭建ASR服务｜科哥二次开发版

1. 快速部署与启动流程

1.1 镜像环境准备

本文基于由开发者“科哥”二次开发的 FunASR 语音识别镜像：FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥。该镜像已集成 Paraformer-Large 和 SenseVoice-Small 双模型支持，内置标点恢复、语音活动检测（VAD）、时间戳输出等高级功能，并提供 WebUI 界面，极大简化了 ASR 服务的本地化部署流程。

首先确保系统中已安装 Docker 环境：

# Ubuntu/Debian 系统检查 Docker 安装 docker --version # 若未安装，可执行： sudo apt update && sudo apt install -y docker.io sudo systemctl enable docker --now

拉取并运行科哥定制的 FunASR 镜像：

docker run -d \ --name funasr-webui \ -p 7860:7860 \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr-webui:latest

注意：若使用 WSL2 环境，请通过sudo service docker start启动 Docker 服务。

容器成功启动后，可通过以下命令查看运行状态：

docker logs funasr-webui

当输出日志显示服务监听在0.0.0.0:7860时，表示服务已就绪。

2. WebUI 界面详解与核心功能配置

2.1 访问地址与基础信息

服务启动后，在浏览器中访问：

http://localhost:7860

或从远程设备访问：

http://<服务器IP>:7860

页面顶部展示应用基本信息： -标题：FunASR 语音识别 WebUI -描述：基于 FunASR 的中文语音识别系统 -版权信息：webUI二次开发 by 科哥 | 微信：312088415

界面采用紫蓝渐变主题设计，布局清晰，操作直观。

2.2 控制面板功能解析

左侧为控制面板，包含以下关键配置项：

模型选择

Paraformer-Large：大参数量模型，识别精度高，适合对准确率要求高的场景。
SenseVoice-Small：轻量级模型，响应速度快，适用于实时性要求较高的短语音识别。

推荐策略：长音频、会议记录等优先选用 Paraformer-Large；客服对话、指令识别等可选 SenseVoice-Small。

设备选择

CUDA：启用 GPU 加速，显著提升推理速度（需宿主机具备 NVIDIA 显卡及驱动）。
CPU：纯 CPU 模式运行，兼容无 GPU 环境。

自动检测机制会在有 CUDA 支持时默认勾选 GPU 模式。

功能开关

启用标点恢复 (PUNC)：自动为识别结果添加句号、逗号等标点符号，提升可读性。
启用语音活动检测 (VAD)：自动分割连续语音中的有效语段，过滤静音片段。
输出时间戳：在结果中附加每句话的时间区间，便于后期编辑与对齐。

操作按钮

加载模型：手动触发模型加载或重新加载，适用于切换模型后刷新状态。
刷新：更新当前模型状态显示（✓ 已加载 / ✗ 未加载）。

3. 使用方式与完整工作流

3.1 方式一：上传音频文件进行识别

步骤 1：准备音频文件

支持格式包括： - WAV (.wav) - MP3 (.mp3) - M4A (.m4a) - FLAC (.flac) - OGG (.ogg) - PCM (.pcm)

推荐采样率为16kHz，单声道录音以获得最佳识别效果。

步骤 2：上传文件

点击 “ASR 语音识别” 区域的“上传音频”按钮，选择本地文件并等待上传完成。

步骤 3：设置识别参数

批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒。用于分块处理超长音频。
识别语言：
auto：自动检测语言（推荐）
zh：强制中文识别
en：英文
yue：粤语
ja：日语
ko：韩语

对于混合语种内容，建议使用auto模式；若已知明确语种，指定语言可提高准确率。

步骤 4：开始识别

点击“开始识别”按钮，系统将调用选定模型进行解码。识别进度可通过日志观察。

步骤 5：查看识别结果

识别完成后，结果分为三个标签页展示：

标签页	内容说明
文本结果	纯文本输出，可直接复制使用
详细信息	JSON 格式完整数据，含置信度、时间戳等元信息
时间戳	按词/句粒度划分的时间范围列表

示例输出：

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

3.2 方式二：浏览器实时录音识别

步骤 1：开启麦克风录音

点击“麦克风录音”按钮，浏览器会请求麦克风权限，点击允许即可开始录制。

步骤 2：录制语音输入

对着麦克风清晰发音，系统实时采集音频流。点击“停止录音”结束录制。

步骤 3：启动识别

点击“开始识别”，系统将对录制的音频进行离线识别。

步骤 4：获取结果

结果展示逻辑与上传文件一致，支持文本、JSON 和 SRT 字幕导出。

优势：无需预先准备音频文件，适合演示、测试和即时转录场景。

4. 结果导出与文件管理

4.1 多格式结果下载

识别完成后，可通过下方按钮下载不同格式的结果文件：

下载按钮	文件格式	用途说明
下载文本	.txt	纯文本，便于导入文档处理
下载 JSON	.json	包含完整结构化数据，适合程序解析
下载 SRT	.srt	视频字幕标准格式，可直接用于剪辑软件

SRT 示例：

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

4.2 输出目录结构

所有输出文件统一保存在容器内路径：

outputs/outputs_YYYYMMDDHHMMSS/

每次识别生成独立时间戳目录，结构如下：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

该设计避免文件覆盖，便于版本管理和追溯。

5. 高级功能与优化建议

5.1 批量大小调整

默认值：300 秒（5 分钟）
可调范围：60 ~ 600 秒
作用：控制每次送入模型的音频长度。较长的批次能提升上下文理解能力，但占用更多内存。

建议：对于低配设备，建议降低至 120 秒以内以减少延迟。

5.2 语言识别策略

合理设置语言选项有助于提升识别准确率：

场景	推荐设置
普通话为主	`zh`
英文讲座	`en`
中英混杂对话	`auto`
粤语访谈	`yue`
日语配音	`ja`

注意：错误的语言设定可能导致严重误识别。

5.3 时间戳应用场景

启用时间戳后，可用于： - 视频字幕同步制作 - 会议纪要重点标注 - 教学资源知识点定位 - 法律取证语音切片

结合 SRT 导出功能，可无缝对接主流视频编辑工具如 Premiere、Final Cut Pro 等。

6. 常见问题排查指南

Q1：识别结果不准确怎么办？

解决方法： 1. 确认选择了正确的识别语言； 2. 检查音频质量，避免背景噪音过大； 3. 尝试提高录音音量或使用降噪耳机； 4. 开启 VAD 和 PUNC 功能辅助处理。

Q2：识别速度慢如何优化？

可能原因： - 使用 CPU 模式运行 - 音频过长导致一次性处理压力大

解决方案： 1. 切换至CUDA 模式（如有 GPU）； 2. 将长音频拆分为多个小于 5 分钟的片段； 3. 改用SenseVoice-Small模型加快响应。

Q3：无法上传音频文件？

检查项： - 文件格式是否在支持列表中（推荐 MP3/WAV）； - 文件大小是否超过 100MB 限制； - 浏览器是否存在兼容性问题（建议使用 Chrome/Firefox）。

Q4：录音无声或无响应？

排查步骤： 1. 确保浏览器已授予麦克风权限； 2. 在系统设置中测试麦克风是否正常工作； 3. 调整系统麦克风增益至合适水平。

Q5：识别结果出现乱码？

应对措施： 1. 确保音频编码格式正确（推荐 PCM 或 MP3）； 2. 更换为标准采样率（16kHz）； 3. 尝试重新转换音频格式后再上传。

Q6：如何进一步提升识别准确率？

综合建议： 1. 使用高质量录音设备，采样率不低于 16kHz； 2. 减少环境噪声干扰，必要时进行预处理降噪； 3. 发音清晰，避免过快语速； 4. 在hotwords.txt中添加专业术语作为热词增强； 5. 启用 N-gram 语言模型（本镜像已集成speech_ngram_lm_zh-cn）。

7. 服务管理与退出方式

停止 WebUI 服务

在终端中按下Ctrl + C组合键终止当前进程。

或通过 Docker 命令停止容器：

docker stop funasr-webui

也可使用 PID 杀进程方式（适用于后台运行）：

pkill -f "python.*app.main"

快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C

8. 技术支持与反馈渠道

开发者：科哥
联系方式：微信 312088415
问题反馈要求：请提供完整的操作步骤、错误截图及日志信息以便快速定位。

项目承诺永久开源使用，请保留原始版权信息。

9. 更新日志

v1.0.0 (2026-01-04)

✅ 首次发布版本
✅ 支持中文语音识别（Paraformer + N-gram LM）
✅ 兼容多种音频格式输入
✅ 实现浏览器端实时录音功能
✅ 支持 TXT/JSON/SRT 多格式导出
✅ 采用紫蓝渐变 UI 主题，提升用户体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。