CAM++ API调用示例：curl命令实现远程验证-平芜编程栈

CAM++ API调用示例：curl命令实现远程验证

1. 引言

随着语音识别与生物特征认证技术的发展，说话人验证（Speaker Verification）在身份认证、智能客服、安全访问等场景中展现出广泛的应用前景。CAM++ 是一个基于深度学习的高性能中文说话人验证系统，由开发者“科哥”基于达摩院开源模型二次开发而成，具备高精度、低延迟和易部署的特点。

该系统通过提取音频中的192维说话人嵌入向量（Embedding），利用余弦相似度判断两段语音是否来自同一说话人。虽然系统提供了直观的Web界面进行交互操作，但在自动化测试、服务集成或批量处理等工程场景下，直接通过API调用更为高效。

本文将详细介绍如何使用curl命令远程调用 CAM++ 系统的后端接口，完成说话人验证任务，帮助开发者脱离图形界面，实现程序化控制与系统集成。

2. 系统架构与API设计

2.1 系统运行环境

CAM++ 基于 Python + FastAPI + Gradio 构建，启动后默认监听本地7860端口：

http://localhost:7860

其核心功能封装为 RESTful 风格 API 接口，支持外部 HTTP 请求调用。尽管官方未公开完整 OpenAPI 文档，但通过分析前端请求可逆向得出关键接口路径与参数结构。

2.2 核心API端点

经抓包分析，系统主要提供以下两个功能接口：

功能	HTTP方法	路径	说明
说话人验证	POST	`/verify_speaker/`	比对两个音频文件并返回相似度
特征提取	POST	`/extract_embedding/`	提取单个音频的192维Embedding

本文聚焦于/verify_speaker/接口的远程调用实践。

2.3 请求数据格式

接口期望接收 multipart/form-data 格式的数据，包含以下字段：

audio1: 参考音频文件（WAV格式，16kHz）
audio2: 待验证音频文件
threshold: 相似度阈值（可选，默认0.31）

响应为 JSON 格式，包含：

{ "similarity": 0.8523, "is_same_speaker": true, "threshold_used": 0.31, "embedding1": [...], "embedding2": [...] }

3. 使用curl实现远程验证

3.1 准备测试音频

确保你有两个本地音频文件用于测试，推荐使用系统自带示例：

ls /root/speech_campplus_sv_zh-cn_16k/examples/ # 输出: # speaker1_a.wav speaker1_b.wav speaker2_a.wav

假设我们要验证speaker1_a.wav和speaker1_b.wav是否为同一人。

3.2 基础curl命令结构

curl -X POST http://<host>:<port>/verify_speaker/ \ -F "audio1=@path/to/audio1.wav" \ -F "audio2=@path/to/audio2.wav" \ -F "threshold=0.31"

若服务运行在本地，则<host>为localhost；如需远程调用，请替换为服务器IP地址，并确保端口开放。

3.3 实际调用示例

curl -X POST http://localhost:7860/verify_speaker/ \ -F "audio1=@/root/speech_campplus_sv_zh-cn_16k/examples/speaker1_a.wav" \ -F "audio2=@/root/speech_campplus_sv_zh-cn_16k/examples/speaker1_b.wav" \ -F "threshold=0.31"

注意：-F参数用于上传文件，@符号表示读取本地文件内容。

3.4 远程调用配置说明

如果你希望从其他机器调用此API，需修改启动脚本以允许外部访问。

编辑/root/speech_campplus_sv_zh-cn_16k/scripts/start_app.sh，将启动命令中的 host 改为0.0.0.0：

python app.py --host 0.0.0.0 --port 7860

重启服务后即可接受外部请求：

curl -X POST http://<server_ip>:7860/verify_speaker/ \ -F "audio1=@local_audio1.wav" \ -F "audio2=@local_audio2.wav"

4. 响应解析与结果处理

4.1 成功响应示例

{ "similarity": 0.8523, "is_same_speaker": true, "threshold_used": 0.31, "message": "Verification completed successfully." }

4.2 失败响应示例

{ "error": "Audio file not valid", "detail": "Unsupported format or corrupted data" }

4.3 在Shell脚本中解析结果

可以结合jq工具提取关键字段：

response=$(curl -s -X POST http://localhost:7860/verify_speaker/ \ -F "audio1=@audio1.wav" \ -F "audio2=@audio2.wav") similarity=$(echo $response | jq -r '.similarity') result=$(echo $response | jq -r '.is_same_speaker') if [ "$result" = "true" ]; then echo "✅ 同一人，相似度: $similarity" else echo "❌ 非同一人，相似度: $similarity" fi

提示：请先安装jq：apt-get install -y jq

5. 批量验证自动化脚本

以下是一个批量比对多个音频对的 Bash 脚本示例：

#!/bin/bash AUDIO_DIR="/root/speech_campplus_sv_zh-cn_16k/examples" PAIRS=( "speaker1_a.wav,speaker1_b.wav" "speaker1_a.wav,speaker2_a.wav" ) for pair in "${PAIRS[@]}"; do IFS=',' read -r a1 a2 <<< "$pair" echo "🔍 正在验证: $a1 vs $a2" response=$(curl -s -X POST http://localhost:7860/verify_speaker/ \ -F "audio1=@$AUDIO_DIR/$a1" \ -F "audio2=@$AUDIO_DIR/$a2") sim=$(echo $response | jq -r '.similarity') same=$(echo $response | jq -r '.is_same_speaker') if [ "$same" = "true" ]; then status="✅ 是同一人" else status="❌ 不是同一人" fi printf "📊 相似度: %.4f | 结果: %s\n\n" "$sim" "$status" done

保存为batch_verify.sh并赋予执行权限：

chmod +x batch_verify.sh ./batch_verify.sh

输出示例：

🔍 正在验证: speaker1_a.wav vs speaker1_b.wav 📊 相似度: 0.8523 | 结果: ✅ 是同一人 🔍 正在验证: speaker1_a.wav vs speaker2_a.wav 📊 相似度: 0.1245 | 结果: ❌ 不是同一人

6. 错误排查与最佳实践

6.1 常见问题及解决方案

问题	原因	解决方案
`Connection refused`	服务未启动或端口错误	检查服务状态，确认端口绑定
`Invalid audio format`	文件非WAV或采样率不符	转换为16kHz WAV格式
`Empty file upload`	文件路径错误或权限不足	检查路径是否存在、是否有读取权限
`High latency`	音频过长或设备性能不足	控制音频时长在3-10秒内

6.2 音频预处理建议

使用ffmpeg统一音频格式：

ffmpeg -i input.mp3 -ar 16000 -ac 1 -f wav output.wav

参数说明： --ar 16000：设置采样率为16kHz --ac 1：单声道 --f wav：输出WAV格式

6.3 安全性建议

生产环境中应添加身份认证（如Token验证）
限制请求频率防止滥用
使用 HTTPS 加密传输敏感语音数据
定期清理 outputs 目录避免磁盘溢出

7. 总结

本文详细介绍了如何通过curl命令远程调用 CAM++ 说话人验证系统的 API 接口，实现了无需依赖Web界面的功能调用。我们覆盖了：

系统API结构分析
curl命令构造方法
本地与远程调用配置
响应解析与自动化脚本编写
批量处理与错误处理策略

通过这些实践，开发者可以轻松将 CAM++ 集成到CI/CD流程、自动化测试平台或企业级身份验证系统中，充分发挥其在声纹识别领域的价值。

未来可进一步扩展方向包括： - 封装为Python SDK - 构建微服务网关统一管理 - 结合数据库实现声纹注册与检索系统

掌握API调用能力，是迈向工程化落地的关键一步。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

CAM++ API调用示例：curl命令实现远程验证