FunASR语音识别WebUI使用手册：科哥二次开发版实战解析-平芜编程栈

FunASR语音识别WebUI使用手册：科哥二次开发版实战解析

1. 引言

随着语音识别技术的快速发展，基于深度学习的自动语音识别（ASR）系统在会议记录、视频字幕生成、语音助手等场景中得到了广泛应用。FunASR 是由阿里巴巴开源的一套高性能语音识别工具库，具备高精度、低延迟和多语言支持等优势。在此基础上，开发者“科哥”对speech_ngram_lm_zh-cn模型进行了二次开发，并封装为可视化 WebUI 界面，极大降低了普通用户和技术人员的使用门槛。

本手册将全面解析FunASR 语音识别 WebUI（科哥二次开发版）的功能特性、操作流程与工程实践要点，帮助用户快速上手并高效应用该系统于实际项目中。

2. 系统概述与核心价值

2.1 技术背景

传统 ASR 系统多以命令行方式运行，配置复杂、依赖繁多，不利于非专业用户部署和使用。FunASR 原生提供了丰富的模型接口和推理能力，但缺乏直观的操作界面。为此，科哥基于Paraformer-Large和SenseVoice-Small等主流中文语音识别模型，结合 Gradio 构建了图形化 WebUI，实现了从音频上传、实时录音到结果导出的一站式处理。

2.2 核心优势

开箱即用：无需编写代码，通过浏览器即可完成全部操作。
双模型支持：提供高精度大模型（Paraformer-Large）与轻量快速小模型（SenseVoice-Small），满足不同性能需求。
多设备兼容：支持 CUDA 加速（GPU）与 CPU 推理模式，适配各类硬件环境。
全功能集成：包含 VAD（语音活动检测）、PUNC（标点恢复）、时间戳输出、多语言识别等功能。
结果多样化导出：支持文本、JSON、SRT 字幕等多种格式下载，便于后续编辑与集成。

3. 环境部署与访问方式

3.1 部署准备

确保本地或服务器已安装以下基础环境：

Python >= 3.8
PyTorch >= 1.13
CUDA 驱动（如使用 GPU）
pip 包管理工具

执行以下命令安装依赖：

pip install funasr gradio

启动服务脚本示例（假设主程序位于app/main.py）：

python app/main.py --host 0.0.0.0 --port 7860

3.2 访问地址

服务启动成功后，可通过以下地址访问 WebUI：

http://localhost:7860

若需远程访问，请替换为服务器 IP 地址：

http://<服务器IP>:7860

注意：首次加载模型可能需要较长时间（尤其是 Paraformer-Large），请耐心等待状态栏显示“模型已加载”。

4. 界面结构详解

4.1 头部区域

页面顶部展示系统基本信息：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

此部分固定显示，保留原始开发者信息，符合开源协议要求。

4.2 控制面板（左侧）

4.2.1 模型选择

提供两种预设模型切换选项：

模型名称	特点说明
Paraformer-Large	高精度识别，适合高质量转录任务
SenseVoice-Small	响应速度快，资源占用低，适合实时场景

默认选中SenseVoice-Small，用户可根据实际需求手动切换。

4.2.2 设备选择

CUDA：启用 GPU 加速，显著提升识别速度（推荐有显卡时使用）
CPU：通用模式，适用于无独立显卡设备

系统会根据硬件自动判断是否可用 CUDA，建议优先选择 GPU 模式以获得最佳性能。

4.2.3 功能开关

三项关键功能可自由启停：

✅启用标点恢复 (PUNC)：自动为识别结果添加句号、逗号等标点符号
✅启用语音活动检测 (VAD)：自动分割静音段落，仅识别有效语音内容
✅输出时间戳：在结果中附加每个词或句子的时间区间信息

这些功能协同工作，可大幅提升输出文本的可读性与实用性。

4.2.4 模型状态

实时显示当前模型加载情况：

✓模型已加载：表示模型就绪，可以开始识别
✗模型未加载：提示用户点击“加载模型”按钮进行初始化

4.2.5 操作按钮

加载模型：手动触发模型加载或重新加载，用于更换模型或修复异常
刷新：更新当前状态信息，检查设备与模型连接状态

5. 使用流程详解

5.1 方式一：上传音频文件识别

5.1.1 支持格式与建议参数

系统支持多种常见音频格式：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐采样率：16kHz
声道数：单声道（Mono）更佳
文件大小限制：建议小于 100MB

5.1.2 操作步骤

在“ASR 语音识别”区域点击"上传音频"
选择本地音频文件并等待上传完成
设置识别参数：
- 批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒
- 识别语言：支持auto,zh,en,yue,ja,ko
点击"开始识别"按钮，系统进入处理状态
识别完成后，结果将在下方三个标签页中呈现

5.1.3 结果查看

文本结果标签页
显示最终识别出的纯文本内容，支持一键复制。

详细信息标签页
返回完整的 JSON 数据结构，包含每段语音的置信度、时间戳、token 列表等元数据，适用于开发者调试与二次处理。

时间戳标签页
按[序号] 开始时间 - 结束时间 (时长)格式列出各语义单元的时间范围，便于精准定位音频片段。

5.2 方式二：浏览器实时录音

5.2.1 录音流程

点击"麦克风录音"按钮
浏览器弹出权限请求，点击"允许"授予麦克风访问权限
开始说话，系统实时采集声音
点击"停止录音"完成录制
点击"开始识别"启动转录

5.2.2 注意事项

录音前请确认麦克风正常工作
尽量在安静环境中录音，避免背景噪音干扰
若出现无声或断续问题，检查操作系统音频设置及驱动状态

6. 结果导出与存储机制

6.1 下载功能说明

识别完成后，用户可通过三个按钮下载不同格式的结果：

按钮	文件格式	用途说明
下载文本	.txt	纯文本，适用于文档整理
下载 JSON	.json	结构化数据，便于程序解析
下载 SRT	.srt	视频字幕标准格式，支持导入剪辑软件

6.2 输出目录结构

所有输出文件统一保存在outputs/目录下，每次识别创建一个带时间戳的子目录：

outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

命名规则为YYYYMMDDHHMMSS时间戳 + 序号，确保不覆盖历史记录，方便追溯。

7. 高级功能配置指南

7.1 批量大小调整

批量大小控制每次处理的音频长度（单位：秒）：

默认值：300 秒（5 分钟）
取值范围：60 ~ 600 秒

应用场景建议：

短音频（<5分钟）：保持默认
长音频（>5分钟）：分段上传或调高批量值（需足够内存支持）

7.2 语言识别设置

正确选择语言可显著提高识别准确率：

语言选项	适用场景
auto	多语种混合内容
zh	普通话为主
en	英文演讲、访谈
yue	粤语地区用户
ja/ko	日语/韩语语音输入

建议明确语种时关闭auto自动检测，避免误判。

7.3 时间戳输出应用

启用时间戳后，可用于以下典型场景：

视频字幕同步：精确匹配语音与画面
会议纪要标注：快速定位发言人发言时段
教学音频分析：划分知识点讲解区间

8. 常见问题与解决方案

8.1 Q1：识别结果不准确怎么办？

原因分析：

音频质量差（低采样率、噪声大）
语言设置错误
模型未完全加载

解决方法：

使用 16kHz 单声道音频
明确选择对应语言（如zh）
重启服务并重新加载模型

8.2 Q2：识别速度慢如何优化？

可能原因：

当前运行在 CPU 模式
音频过长未分段
模型过大（如 Paraformer-Large）

优化建议：

切换至 CUDA 模式（如有 GPU）
将长音频切分为 5 分钟以内片段
改用SenseVoice-Small模型测试性能差异

8.3 Q3：无法上传音频文件？

排查步骤：

检查文件扩展名是否在支持列表内（推荐 MP3/WAV）
确认文件大小不超过 100MB
更换浏览器尝试（推荐 Chrome/Firefox）

8.4 Q4：录音没有声音？

检查项：

浏览器是否已授权麦克风权限
系统音频输入设备是否正确选择
麦克风物理开关是否打开

8.5 Q5：识别结果出现乱码？

处理方案：

确保音频编码为标准 PCM 或 MP3
转换音频为 WAV 格式再试
检查语言设置是否匹配实际发音

8.6 Q6：如何进一步提升识别准确率？

工程化建议：

使用专业录音设备获取清晰音源
提前对音频做降噪处理（可用 Audacity 等工具）
控制语速适中，避免连读或口音过重
在嘈杂环境下佩戴耳机麦克风

9. 服务管理与退出方式

9.1 停止 WebUI 服务

在终端中按下快捷键：

Ctrl + C

或执行强制终止命令：

pkill -f "python.*app.main"

注意：停止服务后，所有未保存的结果将丢失，请提前下载所需文件。

10. 快捷键与技术支持

10.1 常用快捷键

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C

10.2 技术支持渠道

开发者：科哥
联系方式：微信 312088415
反馈要求：请提供完整错误日志、操作步骤与系统环境信息

11. 更新日志与未来展望

11.1 v1.0.0 (2026-01-04) 发布内容

✅ 首次公开发布版本
✅ 支持中文语音识别（普通话）
✅ 兼容多种音频格式输入
✅ 实现浏览器端实时录音功能
✅ 支持 TXT、JSON、SRT 多格式导出
✅ 采用紫蓝渐变主题 UI 设计，提升视觉体验

11.2 后续规划方向

🔜 支持自定义语言模型微调
🔜 增加批量处理队列功能
🔜 集成 Whisper 模型对比模块
🔜 提供 Docker 镜像一键部署方案

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。