SenseVoice-small-onnx语音识别服务教程：Gradio界面自定义UI与多语言切换功能-平芜编程栈

SenseVoice-small-onnx语音识别服务教程：Gradio界面自定义UI与多语言切换功能

你是不是遇到过这样的场景？手头有一段会议录音，里面有中文、英文，甚至还有几句日语，想快速转成文字，却找不到一个能“通吃”的工具。或者，你开发了一个应用，需要集成语音识别，但既希望它识别准确，又希望界面能贴合自己的品牌风格。

今天，我就带你上手一个能解决这些痛点的利器：SenseVoice-small-onnx语音识别服务。它基于量化后的ONNX模型，身材小巧（仅230M），但本事不小——能自动识别超过50种语言，还自带情感分析和音频事件检测。更重要的是，它提供了一个基于Gradio的Web界面，我们可以轻松地自定义这个界面，并玩转其强大的多语言切换功能。

这篇教程，我将手把手教你从零部署服务，到深度定制UI，再到灵活调用多语言API。无论你是想快速搭建一个演示demo，还是为你的产品集成语音能力，这里都有你需要的干货。

1. 从零开始：快速部署你的语音识别服务

让我们先把服务跑起来，看到效果，这是最有成就感的第一步。

1.1 环境准备与一键启动

确保你的Python环境在3.8以上。打开终端，我们一行命令搞定依赖安装。

# 安装所有必需的包 pip install funasr-onnx gradio fastapi uvicorn soundfile jieba

安装完成后，你需要获取服务的主程序文件app.py。这个文件通常包含了Gradio界面和FastAPI后端的所有逻辑。假设你已经拿到了这个文件，那么启动服务就是一句话的事：

# 启动服务，指定主机和端口 python3 app.py --host 0.0.0.0 --port 7860

看到类似Running on local URL: http://0.0.0.0:7860的输出，就说明服务启动成功了。

这里有个贴心设计：服务会优先检查本地缓存模型路径/root/ai-models/danieldong/sensevoice-small-onnx-quant。如果模型已经存在，就不会重复下载，节省你的时间和流量。量化后的模型文件model_quant.onnx只有230MB，对存储非常友好。

1.2 初探Web界面与API

服务启动后，你可以在浏览器中打开两个关键地址：

Web交互界面 (UI)：http://localhost:7860这里就是Gradio构建的图形化界面，你可以直接上传音频文件，点击按钮进行转写，结果会实时显示在页面上，非常适合测试和演示。
API交互文档 (Swagger UI)：http://localhost:7860/docs这是一个自动生成的、交互式的API文档页面。你可以在这里直接尝试调用后端接口，查看请求格式和响应结果，对于开发者集成特别方便。

现在，打开http://localhost:7860，你应该能看到一个基础的语音识别上传界面。尝试上传一个WAV或MP3文件，感受一下秒级转写的速度。基础功能跑通了，接下来我们看看怎么让它变得“更强大”、“更个性”。

2. 核心能力解读：多语言识别与富文本转写

在动手改造界面之前，有必要了解一下这个服务的“内功心法”。它之所以好用，主要靠两大核心能力。

2.1 真正的多语言混合识别

很多语音识别工具要么只能识别单一语言，要么需要你手动指定语言。SenseVoice-small-onnx的“自动检测”模式就聪明多了。

如何工作：当你选择language="auto"，模型会先对音频进行快速分析，判断其中包含的主要语种。它内置支持超过50种语言，对我们最实用的莫过于中文（zh）、英语（en）、粤语（yue）、日语（ja）和韩语（ko）。
实际效果：这意味着一段中英夹杂的对话，比如“我们明天的meeting定在下午三点”，它可以无缝地、准确地转写成混合文本，无需任何切换操作。

2.2 超越纯文本：富信息转写

普通的语音识别只给你文字，而这个服务还能告诉你一些“言外之意”。

情感识别：它能分析说话人的情绪，比如在转写结果中标记出[高兴]、[平静]或[沮丧]的片段。这对于分析客服录音、会议氛围非常有用。
音频事件检测：它能识别出背景音或特定声音，例如[笑声]、[掌声]、[音乐]或[咳嗽声]。这在媒体内容分析、环境音监测等场景下是宝贵的信息。

这些富文本信息，可以通过API参数use_itn=true来获取更结构化的输出（ITN，逆文本正则化，同时也会格式化数字、单位等）。

3. 施展拳脚：深度自定义Gradio Web界面

默认的Gradio界面可能太“朴素”，或者不符合你的需求。别担心，Gradio的灵活性超乎想象。关键在于修改app.py中构建界面的代码。

3.1 修改界面布局与主题

假设默认的app.py里用gr.Interface快速构建了一个界面。我们可以让它变得更丰富。下面是一个增强版UI的代码示例，我们添加了说明、调整了布局：

import gradio as gr # ... 其他导入（FastAPI, 模型加载等）... # 自定义CSS，让界面更美观 custom_css = """ h1 { color: #2E86C1; } .description { font-size: 1.1em; color: #566573; } """ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo: # 使用Soft主题 gr.Markdown("# 🎤 SenseVoice 智能语音识别工作站") # 更醒目的标题 with gr.Row(): with gr.Column(scale=1): gr.Markdown("### 上传与设置", elem_classes="description") audio_input = gr.Audio(label="上传音频文件", type="filepath") language_radio = gr.Radio( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="识别语言", info="‘auto’模式可自动检测多语言混合" ) use_itn_check = gr.Checkbox(label="启用富文本转写（情感/事件）", value=True) submit_btn = gr.Button("开始转写", variant="primary") with gr.Column(scale=2): gr.Markdown("### 识别结果", elem_classes="description") text_output = gr.Textbox(label="转写文本", lines=10, interactive=False) json_output = gr.JSON(label="详细结果（JSON）", visible=False) # 默认隐藏详细JSON # 显示/隐藏JSON结果的开关 show_json = gr.Checkbox(label="显示详细JSON输出", value=False) show_json.change( fn=lambda x: gr.JSON(visible=x), inputs=show_json, outputs=json_output ) # 绑定处理函数 submit_btn.click( fn=transcribe_audio, # 这是你的核心处理函数 inputs=[audio_input, language_radio, use_itn_check], outputs=[text_output, json_output] ) # ... 后续的FastAPI路由定义和启动代码 ...

这段代码做了哪些改进？

布局：使用gr.Blocks和gr.Row/gr.Column创建了左右分栏的现代化布局。
主题：应用了gr.themes.Soft()主题，让界面看起来更柔和专业。
交互：增加了“显示详细JSON”的复选框，用户可以选择是否查看包含时间戳、情感数据的完整API响应。
说明：通过gr.Markdown和info参数添加了更清晰的引导文字。

3.2 实现动态语言切换与反馈

多语言切换功能是核心卖点，我们可以在UI上让它体验更好。例如，当用户从“auto”切换到特定语言（如“ja”）时，我们可以动态更新提示信息。

# 在gr.Blocks内添加一个动态更新函数 def update_language_info(lang): lang_info = { "auto": "将自动检测音频中的语言（支持50+种）。", "zh": "识别简体中文。", "en": "识别英语。", "yue": "识别粤语。", "ja": "识别日语。", "ko": "识别韩语。" } return gr.Markdown(f"**当前模式**：{lang_info.get(lang, '')}") # 在语言选择组件后添加一个动态Markdown组件 language_info_display = gr.Markdown() # 将语言选择框的变更事件绑定到更新函数 language_radio.change( fn=update_language_info, inputs=language_radio, outputs=language_info_display )

这样，用户切换语言时，下方会立即出现对应的提示，体验更加直观。

4. 灵活集成：通过API调用服务

Web界面适合人工操作，而系统集成则需要API。服务基于FastAPI提供了RESTful接口，调用起来非常简单。

4.1 使用cURL直接测试API

打开你的终端，准备一个测试音频文件test_audio.wav，尝试调用转写接口：

curl -X POST "http://localhost:7860/api/transcribe" \ -F "file=@test_audio.wav" \ -F "language=ja" \ -F "use_itn=true"

这个请求告诉服务：“请识别这个音频文件，我怀疑它是日语，并且请把数字、情感这些信息都格式化好返回。” 你会收到一个JSON响应，里面包含了转写文本和可能的富文本信息。

4.2 在Python项目中集成

在你的Python应用程序中，你可以使用requests库来调用这个服务，实现自动化处理。

import requests def transcribe_with_sensevoice(audio_path, language="auto", use_itn=True): url = "http://localhost:7860/api/transcribe" files = {'file': open(audio_path, 'rb')} data = {'language': language, 'use_itn': use_itn} response = requests.post(url, files=files, data=data) if response.status_code == 200: result = response.json() # result 包含 text, language_detected, segments(带时间戳、情感)等信息 print(f"检测到的语言：{result.get('language_detected')}") print(f"转写文本：{result.get('text')}") return result else: print(f"请求失败: {response.status_code}") return None # 调用示例 result = transcribe_with_sensevoice("meeting.wav", language="auto")

如果你需要处理大量音频，或者进行更底层的控制，也可以直接使用funasr_onnx库加载模型进行推理，这在app.py内部就是这样做的。这种方式绕过了HTTP开销，性能最高。

from funasr_onnx import SenseVoiceSmall # 指向你的量化模型目录 model_dir = "/root/ai-models/danieldong/sensevoice-small-onnx-quant" model = SenseVoiceSmall(model_dir, batch_size=10, quantize=True) # 批量推理 audio_list = ["audio1.wav", "audio2.mp3"] results = model(audio_list, language="auto", use_itn=True) for res in results: print(res['text'])