戒毒康复监测：成瘾者情绪波动AI识别部署案例-平芜编程栈

戒毒康复监测：成瘾者情绪波动AI识别部署案例

在戒毒康复过程中，心理状态的稳定性是决定治疗成败的关键因素之一。传统的人工观察和定期访谈方式存在主观性强、频次低、易遗漏关键情绪信号等问题。随着人工智能技术的发展，尤其是语音情感识别能力的突破，我们有了更客观、连续、非侵入式的心理状态监测手段。

本文将介绍如何基于阿里达摩院开源的SenseVoiceSmall多语言语音理解模型，构建一套适用于戒毒康复场景的情绪波动自动识别系统。该系统不仅能精准转写对话内容，还能实时捕捉说话人的情绪变化（如愤怒、悲伤、开心）以及环境中的声音事件（如哭声、笑声），为医护人员提供科学决策支持。

1. 场景需求与技术选型

1.1 康复管理中的情绪监测痛点

在戒毒康复中心，患者每天会参与心理咨询、小组讨论、家庭通话等活动。这些语音交互中蕴含着丰富的情绪信息：

情绪低落可能预示复吸风险
突然的愤怒或激动可能是心理防线崩溃的前兆
长时间沉默或语调平淡反映抑郁倾向

但人工记录难以做到全天候覆盖，且容易受评估者经验影响。我们需要一种自动化工具，能够在保护隐私的前提下，对语音数据进行结构化分析。

1.2 为什么选择 SenseVoiceSmall？

经过多轮技术对比，我们最终选定阿里巴巴达摩院推出的SenseVoiceSmall模型，原因如下：

能力维度	传统ASR模型	SenseVoiceSmall
仅文字转录	✅	✅
情感识别	❌	✅ 支持6类基础情绪
声音事件检测	❌	✅ 可识别BGM、掌声、哭笑等
多语言支持	通常单一语言	✅ 中/英/日/韩/粤五语种通用
推理速度	一般	✅ 非自回归架构，延迟极低
易用性	需定制开发	✅ 自带Gradio界面，开箱即用

特别值得一提的是，其“富文本识别”能力（Rich Transcription）可以直接输出带有情感标签的文字流，例如：

[开心]今天感觉好多了，跟室友聊得很愉快[笑声]。 [悲伤]昨晚又梦见以前的事，睡不着... [愤怒]你们根本不懂我！别再问了！

这种结构化表达极大降低了后续分析门槛，非常适合医疗场景下的行为模式追踪。

2. 系统部署与服务搭建

2.1 运行环境准备

本方案基于预置镜像部署，已集成以下核心组件：

Python: 3.11
PyTorch: 2.5 + CUDA 支持
语音处理库:funasr,modelscope
音视频解码:av(依赖ffmpeg)
交互界面:gradio==4.0+

所有依赖均已配置完毕，无需手动安装即可启动服务。

2.2 启动 WebUI 服务

若镜像未自动运行 Web 服务，可通过以下步骤手动启动：

# 安装必要的音频处理库 pip install av gradio

创建主程序文件app_sensevoice.py：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用GPU加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建网页界面 with gr.Blocks(title="SenseVoice 情绪识别控制台") as demo: gr.Markdown("# 🎙️ 戒毒康复语音情绪分析平台") gr.Markdown(""" **功能说明：** - 🚀 支持中文、英文、粤语等多种语言输入 - 🎭 自动标注情绪标签：[HAPPY][ANGRY][SAD]等 - 🎸 检测环境声音：[LAUGHTER][CRY][APPLAUSE]等 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传咨询录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="zh", label="语言选择" ) submit_btn = gr.Button("开始分析", variant="primary") with gr.Column(): text_output = gr.Textbox(label="带情绪标签的识别结果", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

保存后执行：

python app_sensevoice.py

服务将在6006端口启动，等待外部访问。

2.3 本地安全访问方式

由于服务器位于内网环境中，需通过 SSH 隧道实现本地浏览器访问：

ssh -L 6006:127.0.0.1:6006 -p [实际端口] root@[服务器IP]

连接成功后，在本地电脑打开浏览器访问：

👉 http://127.0.0.1:6006

即可看到可视化操作界面，支持直接拖拽上传音频文件或使用麦克风实时录入。

3. 实际应用效果展示

3.1 典型情绪识别案例

我们将一段模拟的心理咨询录音输入系统，得到如下输出：

[neutral]医生您好，最近一周我还是按时吃药的。 [BGM:music]（背景有轻微音乐声） [sad]但是晚上总是睡不着，脑子里反复出现以前的画面... [angry]我知道错了，可为什么他们还是不肯原谅我？ [happy]不过昨天女儿来看我了，她笑了，我觉得值得坚持下去。

从这段分析可以看出：

情绪经历了“平静 → 悲伤 → 愤怒 → 开心”的波动过程
系统准确识别出背景音乐的存在
关键转折点出现在亲情互动带来的正向情绪提升

这类数据可用于生成“每日情绪热力图”，帮助医生判断治疗进展。

3.2 批量处理康复日志音频

在实际工作中，康复中心每天会产生大量短录音（每次5–10分钟）。我们编写了一个简单的批处理脚本，自动遍历指定目录下的所有.wav文件，并导出带标签的文本报告：

import os from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall", device="cuda:0") audio_dir = "/data/rehab_audio/day_01/" report_file = "emotion_report_day01.txt" with open(report_file, "w", encoding="utf-8") as f: for file_name in sorted(os.listdir(audio_dir)): if file_name.endswith(".wav"): path = os.path.join(audio_dir, file_name) res = model.generate(input=path, language="zh") text = rich_transcription_postprocess(res[0]["text"]) f.write(f"【{file_name}】\n{text}\n\n")

输出结果可用于建立个体情绪变化曲线，结合用药记录、睡眠数据等形成综合健康画像。