从零开始：Fish Speech 1.5本地部署完整教程-平芜编程栈

从零开始：Fish Speech 1.5本地部署完整教程

1. 引言：为什么选择Fish Speech 1.5？

如果你正在寻找一个高质量的文本转语音工具，Fish Speech 1.5绝对值得关注。这个由Fish Audio开发的先进语音合成模型，基于VQ-GAN和Llama架构，在超过100万小时的多语言音频数据上训练而成。

简单来说，它能帮你：

将文字转换成自然流畅的语音
支持13种语言，包括中文、英文、日文等
仅需5-10秒参考音频就能克隆声音
在本地部署，保护隐私和数据安全

本教程将手把手教你完成Fish Speech 1.5的完整部署过程，即使你是初学者也能轻松上手。

2. 环境准备与系统要求

在开始部署之前，我们先来检查一下你的系统是否满足要求。

2.1 硬件要求

硬件组件	最低要求	推荐配置
GPU内存	2GB	8GB或以上
系统内存	8GB	16GB
存储空间	10GB	20GB（用于模型文件）

2.2 软件要求

Ubuntu 20.04或更高版本（本教程以Ubuntu为例）
Python 3.10-3.12
Conda或Miniconda
GPU驱动（建议使用最新版本）

3. 一步步安装Fish Speech 1.5

现在开始正式的安装过程，我会详细解释每个步骤。

3.1 下载项目代码

首先打开终端，执行以下命令下载Fish Speech项目：

# 克隆项目代码 git clone https://gitclone.com/github.com/fishaudio/fish-speech.git # 进入项目目录 cd fish-speech

这里使用了gitclone镜像，下载速度会比直接从GitHub下载快很多。

3.2 安装系统依赖

安装必要的系统组件，这些是运行Fish Speech的基础：

# 更新软件包列表 sudo apt update # 安装必要的依赖 sudo apt install portaudio19-dev libsox-dev ffmpeg

portaudio19-dev：音频处理库
libsox-dev：音频工具库
ffmpeg：多媒体处理工具

3.3 创建Python虚拟环境

使用Conda创建独立的Python环境，避免与其他项目冲突：

# 创建名为fish-speech的虚拟环境 conda create -n fish-speech python=3.12 # 激活虚拟环境 conda activate fish-speech

使用虚拟环境是个好习惯，这样不同项目的依赖不会互相干扰。

3.4 安装Python依赖

在项目目录下安装所需的Python包：

# 安装项目依赖 pip install -e .

这个命令会读取项目中的setup.py文件，安装所有必要的依赖包。

4. 下载与配置模型

Fish Speech 1.5提供了两个版本的模型，我们可以根据需求选择。

4.1 模型选择

模型名称	参数量	特点	适用场景
OpenAudio S1	40亿	功能完整，质量最高	高质量语音合成，所有高级功能
OpenAudio S1-mini	5亿	推理速度快，质量优秀	快速合成，资源有限的环境

对于大多数用户，我推荐使用S1-mini模型，它在保证质量的同时速度更快。

4.2 下载模型

使用modelscope下载模型文件：

# 创建模型目录 mkdir openaudio-s1-mini # 下载模型文件 modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini

下载过程可能需要一些时间，具体取决于你的网络速度。模型文件大约5-7GB。

4.3 处理下载问题

如果遇到下载问题，可以尝试配置国内镜像：

# 设置Hugging Face镜像 export HF_ENDPOINT=https://hf-mirror.com # 如果需要token（某些模型需要授权） export HF_TOKEN=你的token

如果提示需要授权，请访问Hugging Face的模型页面申请访问权限。

5. 启动与测试Web界面

现在我们来启动Web界面，测试安装是否成功。

5.1 基本启动命令

使用以下命令启动Web界面：

python -m tools.run_webui \ --llama-checkpoint-path "./openaudio-s1-mini" \ --decoder-checkpoint-path "./openaudio-s1-mini/codec.pth" \ --decoder-config-name modded_dac_vq

默认情况下，这样启动只能通过本机访问（localhost）。

5.2 配置远程访问

如果需要在服务器上部署并允许远程访问，需要修改配置文件：

# 进入tools目录 cd tools # 编辑run_webui.py文件，在最后一行添加服务器配置 # 找到app.launch()调用，修改为： app.launch(show_api=True, server_name='0.0.0.0', server_port=7860)

这样修改后，Web服务会监听所有网络接口，可以通过IP地址访问。

5.3 访问Web界面

启动成功后，在浏览器中访问：

http://你的服务器IP:7860

你应该能看到Fish Speech的Web界面，包含文本输入框、参数设置和合成按钮。

6. 使用Fish Speech生成语音

现在让我们来实际使用这个强大的工具。

6.1 基础语音合成

在「输入文本」框中输入想要合成的文字
点击「开始合成」按钮
等待处理完成（首次运行可能需要一些时间）
播放或下载生成的音频

使用技巧：

单次合成建议不超过500字
适当使用标点符号可以改善语音节奏
支持中英文混合文本

6.2 声音克隆功能

Fish Speech最强大的功能之一就是声音克隆：

展开「参考音频」设置区域
上传5-10秒的清晰人声音频
准确填写参考音频对应的文字内容
输入想要合成的新文本
点击「开始合成」

注意事项：

参考音频质量直接影响克隆效果
选择清晰、无背景噪音的音频
确保参考文本与音频内容完全匹配

6.3 参数调整建议

根据你的需求调整合成参数：

参数	说明	建议值
Temperature	控制语音的随机性	0.6-0.8
Top-P	影响采样的多样性	0.7-0.9
重复惩罚	减少重复内容	1.1-1.3

7. 常见问题与解决方法

在部署和使用过程中可能会遇到一些问题，这里提供解决方案。

7.1 安装问题

问题：Python包安装失败

解决方案：确保使用正确的Python版本（3.10-3.12），并检查网络连接

问题：GPU无法识别

解决方案：检查CUDA安装，确认GPU驱动版本兼容

7.2 运行问题

问题：Web界面无法访问

# 检查服务状态 netstat -tlnp | grep 7860 # 重启服务 pkill -f run_webui 重新启动命令

问题：合成速度慢

解决方案：首次运行需要模型预热，后续合成会更快；长文本建议分段处理

7.3 质量问题

问题：语音不自然

解决方案：调整Temperature参数，使用参考音频，检查文本格式

问题：声音克隆效果差

解决方案：确保参考音频质量，音频长度5-10秒，背景噪音小

8. 高级部署选项

对于需要更高级用法的用户，还可以通过API方式部署。

8.1 启动API服务

# 进入tools目录 cd tools # 启动API服务 python -m tools.api_server --listen 0.0.0.0:6006

API服务提供了编程接口，方便集成到其他应用中。

8.2 服务管理

使用supervisor管理服务，确保稳定运行：

# 查看服务状态 supervisorctl status fishspeech # 重启服务 supervisorctl restart fishspeech # 查看日志 tail -100 /root/workspace/fishspeech.log

9. 总结与下一步建议

恭喜！你已经成功完成了Fish Speech 1.5的本地部署。现在你可以：

将文字转换成自然流畅的语音
使用声音克隆功能创建个性化语音
支持多种语言的语音合成
在本地环境中安全使用

下一步学习建议：

深入参数调优：尝试不同的参数组合，找到最适合你需求的设置
批量处理：学习使用API接口进行批量语音合成
质量优化：探索如何准备更好的参考音频来提升克隆效果
应用集成：将Fish Speech集成到你自己的应用中

记住，好的语音合成效果需要一些实践和调试。多尝试不同的文本和参数设置，你会逐渐掌握使用技巧。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零开始：Fish Speech 1.5本地部署完整教程