宠物叫声识别初探：能否用SenseVoiceSmall区分喵呜？-平芜编程栈

宠物叫声识别初探：能否用SenseVoiceSmall区分喵呜？

你有没有想过，家里的猫咪“喵呜”两声，AI能不能听懂它是在撒娇、生气还是饿了？今天我们就来做一个有趣的小实验——用阿里巴巴达摩院开源的SenseVoiceSmall模型，看看它能不能识别出宠物的叫声，尤其是猫叫。

这听起来有点天马行空，毕竟 SenseVoiceSmall 是为人类语音设计的多语言理解模型，主打情感识别和声音事件检测。但它真的能“听懂”非人声吗？我们不搞复杂训练，只做一次轻量级实测，看看现成模型的边界在哪里。

1. 什么是 SenseVoiceSmall？

SenseVoiceSmall是阿里达摩院（iic）推出的一款轻量级语音理解模型，不同于传统 ASR（自动语音识别）只能转文字，它还能“读懂”语气和环境音。官方定位是“富文本语音识别”，也就是说，它输出的不只是你说的话，还包括：

你说话时的情绪：开心 😄、愤怒 😠、悲伤 😢
背景中的声音事件：背景音乐 🎵、掌声 👏、笑声 😂、哭声 😭

更关键的是，它支持中文、英文、粤语、日语、韩语多语言混合识别，且推理速度极快，在 4090D 这类消费级显卡上也能做到秒级响应。

而我们要测试的问题是：既然它能识别“哭声”，那“猫叫声”算不算一种“声音事件”？它能不能把“喵呜”从一段音频里揪出来，甚至判断它是撒娇还是抗议？

2. 实验准备：环境与工具

2.1 镜像环境简介

本次实验基于一个预配置好的 AI 镜像环境，已集成以下核心组件：

Python 3.11
PyTorch 2.5
FunASR + ModelScope：支撑 SenseVoice 模型加载与推理
Gradio WebUI：提供可视化交互界面
FFmpeg / av：用于音频解码与格式转换

镜像默认开放了一个 Gradio 服务端口（6006），我们可以通过本地 SSH 隧道访问 Web 界面，上传音频并查看识别结果。

2.2 关键依赖说明

组件	作用
`funasr`	阿里语音识别框架，负责模型调用
`modelscope`	模型下载与管理工具
`gradio`	构建网页交互界面
`av`	音频文件解码（比 librosa 更高效）
`ffmpeg`	后台音频处理支持

提示：模型对输入音频建议为 16kHz 采样率，但会自动重采样，所以常见 MP3、WAV 格式均可直接使用。

3. 动手实测：让 AI 听猫叫

3.1 启动 Web 服务

如果镜像未自动启动服务，可在终端执行以下命令：

python app_sensevoice.py

该脚本会启动一个 Gradio 应用，监听0.0.0.0:6006，界面如下：

支持上传音频或直接录音
可选择语言（auto 自动识别）
输出结果包含原始标签和清洗后的富文本

3.2 本地访问方式

由于平台安全限制，需通过 SSH 隧道转发端口：

ssh -L 6006:127.0.0.1:6006 -p [你的端口] root@[你的IP]

连接成功后，在浏览器打开： 👉 http://127.0.0.1:6006

即可进入交互页面。

4. 测试案例设计

为了验证模型能力，我准备了三段不同类型的音频进行测试：

4.1 测试样本清单

编号	音频内容	类型描述
A	单纯猫叫（连续“喵呜”）	纯动物发声
B	猫叫 + 主人说话（“饿了吗？”）	人声与猫叫混合
C	猫叫 + 背景音乐	多声音叠加场景

目标是观察模型是否能：

检测到“喵呜”并标记为某种声音事件
区分猫叫与人声
在复杂环境中仍保持识别能力

5. 实测结果分析

5.1 样本 A：单纯猫叫

输入：一段持续 8 秒的猫咪叫唤声（无其他干扰）

输出结果：

[CRY] 喵呜...喵呜...

分析：

模型并未识别出“CAT”或“ANIMAL”类标签
但将“喵呜”误判为[CRY]（哭声）
文字部分保留了“喵呜”，说明语音特征被部分捕捉

💡 推测原因：猫叫与婴儿哭声在频谱上有相似性（高频、波动大），模型可能将其归类为“哭泣类”声音事件。

5.2 样本 B：猫叫 + 人声对话

输入：主人问“饿了吗？”，猫咪回应“喵呜”

输出结果：

[CRY] 喵呜... [SAD] 饿了吗？

分析：

模型成功分离了两个声音片段
人声部分准确识别为中文，并标注情绪为“SAD”（可能是语调偏缓）
猫叫再次被标记为 [CRY]

✅亮点：具备一定的声音分割能力，能在人声与非人声之间做区分。

5.3 样本 C：猫叫 + 背景音乐

输入：轻音乐背景下，猫咪短促叫了一声

输出结果：

[BGM] [LAUGHTER] 喵呜？

分析：

背景音乐被正确识别为 [BGM]
但猫叫竟被识别为 [LAUGHTER]（笑声）！
文字仍保留“喵呜”，说明发音被捕捉，但事件分类出错

⚠️问题暴露：在多音源干扰下，事件检测准确性下降，出现明显误判。

6. 深入解读：模型到底“听”到了什么？

6.1 情感与事件标签机制

SenseVoiceSmall 的富文本输出依赖于一组预定义的声音事件标签，主要包括：

事件类型	支持标签
情绪	HAPPY, SAD, ANGRY, NEUTRAL
声音事件	BGM, APPLAUSE, LAUGHTER, CRY, SPEECH, NOISE

注意：没有 CAT, DOG, ANIMAL等动物相关标签。

这意味着，任何非人声的高频声音，都可能被映射到最接近的已有类别中，比如“CRY”或“LAUGHTER”。

6.2 为什么猫叫会被当成“哭声”？

从声学角度看：

猫叫频率范围：通常在 500Hz ~ 1.5kHz，部分可达 2kHz 以上
婴儿哭声频率：集中在 500Hz ~ 3kHz，且有强烈谐波
笑声特征：突发性强、频谱跳跃，有时也含高频成分

当模型遇到一个未见过的高频、波动明显的非人声时，它会选择“最像”的已有类别进行匹配——于是，“喵呜” ≈ “CRY”。

7. 能否真正区分“喵呜”？结论来了

7.1 直接回答标题问题

❓SenseVoiceSmall 能否区分喵呜？

✅能听到，但不能准确识别。

具体来说：

✅能捕捉到“喵呜”的语音信号，并将其转化为文字
✅能在混合音频中分离出猫叫片段
❌无法将其归类为“猫叫”事件（因无此标签）
❌常误判为 CRY 或 LAUGHTER，尤其在复杂环境中

7.2 模型的能力边界总结

能力项	是否支持	说明
捕捉猫叫声	✅	可转录为“喵呜”等文字
分离人声与猫叫	✅	具备基本 VAD（语音活动检测）能力
标记为特定事件	❌	无 CAT/ANIMAL 类标签
情绪判断（对猫）	❌	情绪标签仅针对人类语音
多语言环境下稳定输出	✅	中英混杂也不影响基础识别

8. 扩展思考：如何让 AI 真正“听懂”宠物？

虽然 SenseVoiceSmall 不能原生识别猫叫，但我们可以通过一些方法扩展它的能力：

8.1 方案一：前端加一个“动物声检测器”

思路：先用一个专门的动物叫声分类模型（如 YAMNet 或自训练 CNN）判断是否有猫叫，再决定是否送入 SenseVoice。

流程：

音频 → 动物声检测 → [是猫叫] → 送入 SenseVoice → 输出“喵呜” ↘ [否] → 忽略

优势：精准过滤，避免误触发
挑战：需要额外部署模型

8.2 方案二：后处理规则优化

既然模型常把“喵呜”标为 [CRY]，我们可以加一条规则：

if "[CRY]" in result and "喵" in result: result = result.replace("[CRY]", "[CAT MEOW]")

简单粗暴，但有效提升可读性。

8.3 方案三：微调模型（进阶玩法）

如果你有足够的猫叫+人声混合数据，可以尝试：

在 FunASR 框架下微调 SenseVoice
添加新的 token[MEOW]或[CAT]
训练目标：让模型学会将特定频谱模式关联到新标签

但这属于定制化开发，超出本文范围。

9. 总结：一次有趣的跨界探索

通过这次实验，我们发现：

SenseVoiceSmall 虽然不是为宠物设计的，但它展现出了惊人的泛化能力——它能“听见”猫叫，只是还不会“叫名字”。

它的强大之处在于：

多语言、多情绪、多事件的综合理解
高效的非自回归架构，适合实时应用
Gradio 集成让普通人也能轻松上手

局限也很明确：

声音事件标签集固定，缺乏动物相关类别
对非人声的归类依赖近似匹配，易出错

但这恰恰提醒我们：AI 的能力不仅取决于模型本身，更在于我们如何创造性地使用它。

也许有一天，我们会看到“宠物语音助手”走进千家万户——而现在，我们已经迈出了第一步：让 AI 开始“注意”到那些曾经被忽略的“喵呜”声。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

宠物叫声识别初探：能否用SenseVoiceSmall区分喵呜？