手把手教你用CosyVoice3:从部署到生成第一个克隆语音,全程截图
1. 环境准备与快速部署
1.1 系统要求
在开始之前,请确保你的系统满足以下基本要求:
- 操作系统:推荐使用Linux系统(Ubuntu 20.04或更高版本)
- 硬件配置:
- CPU:4核以上
- 内存:8GB以上
- 显存:4GB以上(GPU加速效果更佳)
- 网络连接:需要能够访问GitHub和阿里云镜像仓库
1.2 一键部署方法
CosyVoice3提供了非常简单的部署方式,只需要执行以下命令:
cd /root && bash run.sh这个脚本会自动完成以下工作:
- 下载必要的依赖包
- 拉取预训练模型
- 配置运行环境
- 启动Web服务
部署过程截图:
如果遇到卡顿情况,可以点击控制面板中的【重启应用】按钮释放资源,等待完成启动后再次打开【打开应用】即可。
2. 访问Web界面
2.1 服务启动确认
当看到终端显示如下信息时,表示服务已成功启动:
Running on local URL: http://0.0.0.0:78602.2 浏览器访问
在浏览器地址栏输入以下地址访问Web界面:
http://<你的服务器IP>:7860如果是本地测试,可以直接访问:
http://localhost:7860Web界面截图:
3. 创建第一个克隆语音
3.1 选择合成模式
CosyVoice3提供两种语音合成模式:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| 3s极速复刻 | 只需3秒音频即可克隆声音 | 快速复制特定人声 |
| 自然语言控制 | 通过文字描述控制语音风格 | 情感化语音生成 |
3.2 3s极速复刻操作步骤
上传音频样本:
- 点击"选择prompt音频文件"按钮上传
- 或点击"录制prompt音频文件"直接录音
- 建议使用3-10秒清晰语音
输入合成文本:
- 在顶部文本框中输入想要合成的文字
- 支持200字符以内的内容
点击生成:
- 点击"生成音频"按钮
- 等待处理完成
操作界面截图:
3.3 方言与情感控制
CosyVoice3支持18种中国方言和丰富的情感表达:
方言选择:
- 在"自然语言控制"模式下
- 从下拉菜单中选择如"用四川话说这句话"
情感控制:
- 选择如"用兴奋的语气说这句话"
- 或"用悲伤的语气说这句话"
方言与情感选项截图:
4. 进阶使用技巧
4.1 多音字精准控制
对于容易读错的多音字,可以使用拼音标注:
她[h][ǎo]干净 → 读作hǎo 她的爱好[h][ào] → 读作hào4.2 英文发音校正
使用ARPAbet音素标注确保英文发音准确:
[M][AY0][N][UW1][T] → 读作minute [R][EH1][K][ER0][D] → 读作record4.3 随机种子使用
- 点击🎲按钮生成随机种子
- 相同种子+相同输入=相同输出
- 种子范围:1-100000000
5. 常见问题解决
5.1 音频生成失败怎么办?
- 检查音频采样率是否≥16kHz
- 确认文本不超过200字符
- 确保已上传音频样本
5.2 生成的语音不像原声?
- 使用更清晰的音频样本
- 确保样本中只有目标人声
- 尝试3-10秒长度的样本
5.3 后台查看生成进度
点击【后台查看】可以实时监控音频生成的具体进度和资源使用情况。
6. 总结与下一步
通过本教程,你已经学会了:
- 如何一键部署CosyVoice3
- 访问Web界面并选择合成模式
- 生成第一个克隆语音
- 控制方言和情感表达
- 解决常见问题
下一步建议:
- 尝试不同的方言和情感组合
- 探索多音字和英文发音控制
- 关注项目更新:https://github.com/FunAudioLLM/CosyVoice
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。