有没有支持粤语的情感识别模型？SenseVoiceSmall实战解答-平芜编程栈

有没有支持粤语的情感识别模型？SenseVoiceSmall实战解答

1. 引言：多语言情感识别的现实需求

在语音交互、智能客服、内容审核等实际应用场景中，传统语音识别（ASR）系统仅能完成“语音转文字”的基础任务，难以捕捉说话人的情绪状态或环境中的声音事件。然而，在真实对话中，情绪和背景信息往往承载着关键语义。例如，一段带有愤怒情绪的投诉音频，其处理优先级应高于普通咨询；而视频内容中突然出现的掌声或笑声，则可能指示重要片段。

为此，阿里巴巴达摩院推出了SenseVoiceSmall多语言语音理解模型，不仅支持高精度语音识别，还具备情感识别与声音事件检测能力，尤其值得关注的是，它原生支持粤语（yue），填补了中文方言情感分析的技术空白。本文将基于开源模型部署实践，验证其在粤语场景下的情感识别效果，并提供可运行的 Gradio WebUI 实战方案。

2. SenseVoiceSmall 模型核心特性解析

2.1 多语言富文本识别能力

SenseVoiceSmall 的最大优势在于其“富文本转录”（Rich Transcription）能力，即在输出文字的同时，标注出音频中的非语言信息。这包括：

情感标签：识别 HAPPY（开心）、ANGRY（愤怒）、SAD（悲伤）等情绪。
声音事件：检测 BGM（背景音乐）、APPLAUSE（掌声）、LAUGHTER（笑声）、CRY（哭声）等环境音。

该模型支持五种语言：中文（zh）、英文（en）、日语（ja）、韩语（ko）、粤语（yue），其中对粤语的支持使其在粤港澳地区及海外华人社区具有广泛适用性。

2.2 技术架构与性能优势

SenseVoiceSmall 采用非自回归（Non-Autoregressive）架构，相比传统自回归模型（如 Whisper），推理速度显著提升。实测表明，在 NVIDIA RTX 4090D 上，30 秒音频可在 1 秒内完成转写，满足实时性要求较高的业务场景。

此外，模型内置 VAD（Voice Activity Detection）模块（默认使用fsmn-vad），可自动分割语音段落，避免静音干扰，提升长音频处理效率。

2.3 集成化部署设计

本镜像已预装以下组件，极大降低使用门槛：

FunASR 框架：阿里开源的语音处理工具包，支持模型加载与推理。
Gradio WebUI：提供图形化界面，无需编程即可上传音频并查看结果。
FFmpeg + av 库：自动处理音频格式转换（如 MP3 → WAV）与重采样（至 16kHz）。

3. 实践应用：构建支持粤语的情感识别 Web 服务

3.1 环境准备与依赖安装

确保运行环境满足以下依赖：

# Python 版本要求 python==3.11 # 核心库安装 pip install torch==2.5 funasr modelscope gradio av -U # 系统级音频处理工具 apt-get update && apt-get install -y ffmpeg

注意：若使用 GPU，请确认 CUDA 驱动与 PyTorch 版本兼容。

3.2 WebUI 服务脚本实现

创建app_sensevoice.py文件，完整代码如下：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化 SenseVoiceSmall 模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速，若无 GPU 可改为 "cpu" ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" # 调用模型生成富文本结果 res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) # 后处理：将原始标签转换为易读格式 if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建 Gradio 界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

3.3 服务启动与访问方式

执行以下命令启动服务：

python app_sensevoice.py

由于远程服务器通常限制端口直连，需通过 SSH 隧道本地访问：

ssh -L 6006:127.0.0.1:6006 -p [SSH端口] root@[服务器IP]

连接成功后，在本地浏览器打开： 👉 http://127.0.0.1:6006

3.4 实际测试案例分析

测试音频 1：粤语表达喜悦

输入音频内容：“今日真系好开心啊！”（今天真的很开心啊！）

输出结果：

[愉快] 今日真系好开心啊！

模型成功识别出“愉快”情感标签，且未误判为普通话。

测试音频 2：夹杂掌声的会议发言

输入音频包含演讲与结束后的掌声。

输出结果：

感谢各位支持。[掌声]

模型准确标注了声音事件，体现了环境感知能力。

4. 关键技术细节与优化建议

4.1 语言参数设置策略

language="auto"：适用于多语种混合场景，但可能降低特定语言精度。
明确指定language="yue"可提升粤语识别稳定性，尤其在口音较重时。

4.2 音频预处理注意事项

推荐输入16kHz 采样率、单声道 WAV/MP3格式。
若输入为高采样率（如 44.1kHz），模型会通过av自动重采样，但可能引入轻微延迟。
避免过长静音段，可通过外部工具先行裁剪。

4.3 性能调优参数说明

参数	建议值	说明
`batch_size_s`	60	每批次处理的音频秒数，影响内存占用
`merge_vad`	True	是否合并相邻语音片段
`merge_length_s`	15	合并后最大片段长度（秒）
`device`	"cuda:0"	使用 GPU 加速，显著提升推理速度