Emotion2Vec+ Large可导出JSON数据，便于后续统计分析-平芜编程栈

Emotion2Vec+ Large语音情感识别系统：JSON数据导出与统计分析实践指南

1. 为什么JSON导出能力让情感分析真正落地？

你有没有遇到过这样的场景：花了半天时间用语音情感识别工具跑完一批音频，结果发现所有结果都锁死在网页界面上，想做批量统计、画趋势图、或者导入Excel分析？只能手动复制粘贴——这简直是数据分析的噩梦。

Emotion2Vec+ Large语音情感识别系统（二次开发构建by科哥）最被低估却最实用的特性，恰恰是它原生支持结构化JSON数据导出。这不是一个隐藏功能，而是整个系统设计的核心逻辑：识别不是终点，可编程、可统计、可集成才是真正的价值闭环。

这个镜像不只给你一个“能用”的WebUI，而是为你准备好了一整套从原始音频到可分析数据的工程化流水线。本文将带你完整走通这条路径：如何获取JSON、理解其结构、用Python快速做统计分析，以及如何把这套能力嵌入你的实际业务流程中。

关键提示：本文聚焦“JSON导出”这一具体能力，不重复介绍基础操作。如果你还没启动过系统，请先执行/bin/bash /root/run.sh，然后访问http://localhost:7860。

2. JSON文件生成机制与存储路径解析

2.1 系统如何自动生成JSON？

当你点击“ 开始识别”后，系统内部执行的是一条清晰的数据流水线：

音频验证与预处理：检查格式、时长、采样率，自动转为16kHz WAV
模型推理：加载Emotion2Vec+ Large模型（约300MB），对音频进行情感打分
结果结构化：将原始模型输出（9维概率向量）封装为标准JSON对象
文件写入：在outputs/目录下创建带时间戳的子目录，并写入result.json

这个过程完全自动化，无需任何额外配置。你唯一需要做的，就是确保在WebUI中完成了识别操作。

2.2 文件路径命名规则与组织逻辑

所有输出都遵循统一的时间戳命名规范，这是保证数据可追溯性的关键设计：

outputs/ └── outputs_20240104_223000/ # 格式：outputs_YYYYMMDD_HHMMSS ├── processed_audio.wav # 预处理后的标准音频 ├── result.json # 核心：结构化情感分析结果 └── embedding.npy # 可选：特征向量（仅当勾选“提取Embedding”）

为什么用时间戳而非序号？

避免并发冲突：多个用户或多次任务同时运行时互不干扰
天然支持时间序列分析：你可以直接按文件夹名排序，获得完整的识别时间线
便于日志关联：处理日志中记录的时间戳与文件夹名完全一致

实操建议：在批量处理时，不要手动重命名文件夹。保留原始时间戳，后续用脚本统一处理，效率更高也更可靠。

3. result.json深度解析：9种情感的结构化表达

3.1 完整JSON结构与字段含义

以下是系统生成的result.json文件的标准结构（已去除敏感信息，保留全部字段）：

{ "emotion": "happy", "confidence": 0.853, "scores": { "angry": 0.012, "disgusted": 0.008, "fearful": 0.015, "happy": 0.853, "neutral": 0.045, "other": 0.023, "sad": 0.018, "surprised": 0.021, "unknown": 0.005 }, "granularity": "utterance", "timestamp": "2024-01-04 22:30:00" }

各字段详解：

字段	类型	含义	实际价值
`emotion`	string	主要情感标签（英文小写）	直接用于分类统计，如“计算快乐音频占比”
`confidence`	float	主情感置信度（0.00–1.00）	判断结果可靠性，可设置阈值过滤低置信结果
`scores`	object	9种情感的详细得分	分析混合情感，如“悲伤+惊讶=震惊”，支撑深度洞察
`granularity`	string	识别粒度（`utterance`或`frame`）	决定数据聚合方式，`frame`级需特殊处理时间序列
`timestamp`	string	识别完成时间	与业务时间对齐，支持“某时段情绪波动分析”

3.2 “utterance”与“frame”两种模式的数据差异

系统支持两种识别粒度，它们生成的JSON结构相同，但数据语义和使用方式截然不同：

utterance（整句级别）：适用于绝大多数场景
- 单个音频文件 → 1个result.json
- scores代表整段音频的总体情感倾向
- 典型用途：客服通话质检、会议情绪总结、播客内容分析
frame（帧级别）：适用于专业研究与动态分析
- 单个音频文件 → 1个result.json+N个frame_*.json（系统自动生成）
- 每个frame_*.json包含该音频帧的情感得分（同样9维）
- 典型用途：演讲节奏分析、心理治疗过程追踪、广告情感曲线绘制

重要提醒：frame模式会生成大量JSON文件（每秒约100帧）。如需批量处理，请优先使用glob模块匹配文件，而非手动遍历。

4. Python实战：三步完成JSON数据统计分析

4.1 第一步：批量读取所有result.json文件

使用Python的pathlib和json模块，轻松遍历整个outputs/目录：

import json from pathlib import Path import pandas as pd # 定义输出根目录 output_root = Path("outputs") # 获取所有result.json文件路径 json_files = list(output_root.rglob("result.json")) print(f"共找到 {len(json_files)} 个result.json文件") # 示例输出：共找到 42 个result.json文件

为什么用rglob而不是glob？

rglob递归搜索所有子目录，完美匹配系统按时间戳创建的多层结构
glob只能搜索当前目录，会遗漏大部分文件

4.2 第二步：解析JSON并构建结构化DataFrame

将每个JSON解析为一行数据，构建可用于分析的表格：

# 初始化空列表存储每行数据 data_rows = [] for json_path in json_files: try: # 读取JSON with open(json_path, 'r', encoding='utf-8') as f: data = json.load(f) # 提取核心字段 row = { 'file_path': str(json_path), 'emotion': data['emotion'], 'confidence': data['confidence'], 'granularity': data['granularity'], 'timestamp': data['timestamp'], } # 展开scores字典为独立列（关键！） for emotion, score in data['scores'].items(): row[f'score_{emotion}'] = score data_rows.append(row) except Exception as e: print(f"解析失败 {json_path}: {e}") continue # 转为Pandas DataFrame df = pd.DataFrame(data_rows) print(f"成功加载 {len(df)} 条记录") print(df.head())

输出示例：

file_path emotion confidence granularity timestamp score_angry ... 0 outputs/... happy 0.853 utterance 2024-01-04 22:30:00 0.012 ...

4.3 第三步：5个高价值统计分析案例

案例1：基础情感分布统计（饼图）

import matplotlib.pyplot as plt # 统计每种主情感出现次数 emotion_counts = df['emotion'].value_counts() plt.figure(figsize=(8, 6)) plt.pie(emotion_counts.values, labels=emotion_counts.index, autopct='%1.1f%%') plt.title('整体情感分布') plt.show() print("情感分布详情：") print(emotion_counts)

案例2：置信度过滤与质量控制

# 设置置信度阈值（如0.7） threshold = 0.7 high_conf_df = df[df['confidence'] >= threshold].copy() print(f"置信度≥{threshold}的样本数：{len(high_conf_df)}/{len(df)} ({len(high_conf_df)/len(df)*100:.1f}%)") # 分析低置信样本的主要情感 low_conf_df = df[df['confidence'] < threshold] print("\n低置信样本主要情感：") print(low_conf_df['emotion'].value_counts())

案例3：混合情感强度分析（识别“复杂情绪”）

# 计算次高情感得分（除主情感外的最高分） def get_secondary_emotion(row): scores = {k: v for k, v in row.items() if k.startswith('score_')} # 移除主情感 main_emotion_key = f"score_{row['emotion']}" scores.pop(main_emotion_key, None) # 返回次高分对应的情感 if scores: secondary = max(scores, key=scores.get) return secondary.replace('score_', ''), scores[secondary] return 'none', 0 df[['secondary_emotion', 'secondary_score']] = df.apply( get_secondary_emotion, axis=1, result_type='expand' ) # 找出“快乐+惊讶”组合（典型惊喜情绪） surprise_combo = df[(df['emotion'] == 'happy') & (df['secondary_emotion'] == 'surprised')] print(f"检测到 {len(surprise_combo)} 个惊喜样本（快乐为主，惊讶为次）")

案例4：时间趋势分析（按小时统计情绪变化）

# 将timestamp转为datetime df['datetime'] = pd.to_datetime(df['timestamp']) # 按小时分组统计 hourly_stats = df.groupby(df['datetime'].dt.hour).agg({ 'emotion': lambda x: x.value_counts().index[0] if not x.empty else 'none', 'confidence': 'mean', 'file_path': 'count' }).rename(columns={'file_path': 'count'}) print("每小时情绪趋势：") print(hourly_stats)

案例5：情感得分相关性热力图

import seaborn as sns # 提取所有score_*列 score_cols = [col for col in df.columns if col.startswith('score_')] score_df = df[score_cols] # 计算相关性矩阵 corr_matrix = score_df.corr() plt.figure(figsize=(10, 8)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0) plt.title('情感得分相关性热力图') plt.show()

5. 工程化进阶：将JSON分析集成到业务流程

5.1 自动化日报生成脚本

创建一个generate_daily_report.py，每天定时运行：

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Emotion2Vec+ Daily Report Generator 生成昨日情感分析日报（PDF/HTML） """ from datetime import datetime, timedelta import pandas as pd from pathlib import Path import json def get_yesterday_folder(): """获取昨天的outputs文件夹（按时间戳匹配）""" yesterday = (datetime.now() - timedelta(days=1)).strftime("%Y%m%d") output_root = Path("outputs") for folder in output_root.iterdir(): if folder.is_dir() and yesterday in folder.name: return folder return None def generate_report(): folder = get_yesterday_folder() if not folder: print("未找到昨日数据文件夹") return # 读取所有result.json json_files = list(folder.rglob("result.json")) if not json_files: print("昨日无识别结果") return # 解析数据（复用前面的解析逻辑） data_rows = [] for f in json_files: with open(f) as jf: data = json.load(jf) data_rows.append({ 'emotion': data['emotion'], 'confidence': data['confidence'] }) df = pd.DataFrame(data_rows) # 生成统计摘要 report = f""" === Emotion2Vec+ 昨日分析日报 ({datetime.now().strftime('%Y-%m-%d')}) === 总样本数：{len(df)} 主导情感：{df['emotion'].mode().iloc[0]} 平均置信度：{df['confidence'].mean():.3f} --- """ # 保存报告 report_path = folder / "daily_report.txt" with open(report_path, 'w') as f: f.write(report) print(f"日报已生成：{report_path}") if __name__ == "__main__": generate_report()

5.2 与企业微信/钉钉集成告警

当检测到异常情绪模式时，自动发送告警：

# 伪代码：检测连续5个“angry”样本 angry_streak = 0 for idx, row in df.sort_values('timestamp').iterrows(): if row['emotion'] == 'angry': angry_streak += 1 if angry_streak >= 5: send_alert_to_work_wechat( title=" 客服情绪异常告警", content=f"连续{angry_streak}通电话检测为愤怒情绪，请及时介入" ) break else: angry_streak = 0

5.3 构建轻量API服务（Flask示例）

让其他系统直接调用分析结果：

from flask import Flask, jsonify, request import pandas as pd from pathlib import Path app = Flask(__name__) @app.route('/api/emotion-stats', methods=['GET']) def get_emotion_stats(): # 动态读取最新数据 latest_folder = max(Path("outputs").iterdir(), key=lambda x: x.stat().st_ctime) json_files = list(latest_folder.rglob("result.json")) # 解析并返回JSON stats = { 'total_samples': len(json_files), 'emotion_distribution': pd.read_json( str(json_files[0]) # 简化示例，实际应解析全部 )['emotion'].value_counts().to_dict() } return jsonify(stats) if __name__ == '__main__': app.run(host='0.0.0.0', port=5001)

6. 常见问题与避坑指南

6.1 JSON文件为空或损坏？

原因与解决方案：

现象：result.json文件大小为0字节
原因：音频文件损坏、格式不支持、或系统内存不足导致写入中断
排查步骤：
1. 查看右侧面板的“处理日志”，确认是否有"Writing result.json failed"字样
2. 检查outputs/目录权限：ls -la outputs/，确保root用户有写入权限
3. 临时增加磁盘空间：df -h查看剩余空间，清理旧文件

6.2 如何处理frame模式下的海量JSON文件？

高效策略：

不要一次性读入内存：使用生成器逐个处理

使用Dask替代Pandas（处理超大数据集）：

import dask.dataframe as dd # 用dask读取所有frame_*.json（需先合并为CSV或Parquet）

6.3 中文情感标签显示为英文？

系统设计说明：

result.json中的emotion字段始终为英文小写（如happy），这是为了保证程序解析的稳定性

中文映射关系请参考文档中的情感对照表，或在Python中建立字典：

EMOTION_MAP = { "angry": "愤怒", "disgusted": "厌恶", "fearful": "恐惧", "happy": "快乐", "neutral": "中性", "other": "其他", "sad": "悲伤", "surprised": "惊讶", "unknown": "未知" } df['emotion_zh'] = df['emotion'].map(EMOTION_MAP)

6.4 如何保证JSON数据的安全与合规？

关键实践：

隐私脱敏：在导出前，用脚本自动移除result.json中的原始音频路径（file_path字段）
访问控制：将outputs/目录设为仅root可读，避免Web服务意外暴露

审计日志：在run.sh中添加日志记录：

echo "$(date): JSON generated for $(basename $AUDIO_FILE)" >> /var/log/emotion2vec.log

7. 总结：从单点工具到数据资产的跃迁

Emotion2Vec+ Large语音情感识别系统的价值，绝不仅限于“识别出一段语音是开心还是悲伤”。它的核心竞争力，在于将非结构化的语音信号，转化为可编程、可统计、可集成的结构化数据资产。

通过本文的实践，你应该已经掌握：

定位能力：精准找到result.json的生成位置与命名逻辑
解析能力：用Python高效读取、清洗、结构化海量JSON
分析能力：完成从基础统计到时间趋势、混合情感的深度挖掘
集成能力：将分析结果嵌入日报、告警、API等真实业务场景

这才是AI工具落地的正确姿势——不追求炫酷的界面，而专注构建稳定、可靠、可扩展的数据管道。

下一步，你可以尝试：

将分析结果存入SQLite数据库，构建自己的情感分析仪表盘
结合embedding.npy做语音聚类，发现未标注的情绪模式
用result.json训练轻量级分类器，实现边缘设备上的实时情绪判断

技术的价值，永远在于它解决了什么问题。而Emotion2Vec+ Large，已经为你铺好了从“识别”到“决策”的第一块砖。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Emotion2Vec+ Large可导出JSON数据，便于后续统计分析