用Qwen3-TTS制作多语言有声书：从文本到语音的完整实战流程-平芜编程栈

用Qwen3-TTS制作多语言有声书：从文本到语音的完整实战流程

想不想把你的电子书变成专业级的有声读物？Qwen3-TTS-12Hz-1.7B-CustomVoice这个强大的语音合成模型，能帮你把任何文字转换成自然流畅的语音，支持10种主流语言和多种方言风格。今天，我就带你从零开始，用这个模型制作一本多语言有声书。

1. 准备工作与环境搭建

1.1 你需要准备什么

在开始之前，确保你有以下准备：

一台性能足够的电脑或云服务器（建议至少16GB内存，带GPU更好）
安装好Docker和Docker Compose
准备要转换的电子书文本（TXT或PDF格式）
大约30GB的可用磁盘空间

1.2 获取Qwen3-TTS镜像

Qwen3-TTS已经打包成Docker镜像，部署非常简单。打开终端，执行以下命令拉取镜像：

docker pull csdn-mirror/qwen3-tts-12hz-1.7b-customvoice:latest

这个镜像大约12GB，下载时间取决于你的网速。喝杯咖啡耐心等待吧。

2. 快速启动TTS服务

2.1 单命令启动服务

镜像下载完成后，用这个简单命令启动服务：

docker run -d --name qwen-tts -p 7860:7860 --gpus all csdn-mirror/qwen3-tts-12hz-1.7b-customvoice

参数说明：

-d：后台运行
--name qwen-tts：给容器起个名字
-p 7860:7860：把容器内的7860端口映射到主机
--gpus all：使用所有可用的GPU（如果没有GPU可以去掉这个参数）

2.2 验证服务是否正常运行

等待1-2分钟后，打开浏览器访问http://localhost:7860，你应该能看到这样的界面：

如果看到这个界面，恭喜你，服务已经成功启动了！

3. 制作你的第一本有声书

3.1 准备文本内容

假设我们有一本中文小说《三体》的TXT文件，现在要把它转换成有声书。首先，我们需要对文本进行适当处理：

删除不必要的注释和特殊字符
按章节分割文本（每个章节一个文件）
确保文本编码是UTF-8

这里提供一个简单的Python脚本帮你预处理文本：

import re def clean_text(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: text = f.read() # 移除特殊字符和多余空格 text = re.sub(r'[^\w\s，。！？、：；""''（）《》【】\-\n]', '', text) text = re.sub(r'\s+', ' ', text).strip() # 分割章节（假设章节标题格式为"第X章 标题"） chapters = re.split(r'(第[一二三四五六七八九十百]+章\s+.+?\n)', text) # 保存各章节 for i in range(1, len(chapters), 2): chapter_title = chapters[i].strip() chapter_content = chapters[i+1] with open(f"{output_file}_chapter_{i//2+1}.txt", 'w', encoding='utf-8') as f: f.write(f"{chapter_title}\n\n{chapter_content}") clean_text('santi.txt', 'santi_clean')

3.2 批量生成语音文件

现在我们可以用Qwen3-TTS的API批量生成语音。创建一个Python脚本generate_audiobook.py：

import os import requests import time from pydub import AudioSegment BASE_URL = "http://localhost:7860/api/v1/tts" OUTPUT_DIR = "audiobook" # 创建输出目录 os.makedirs(OUTPUT_DIR, exist_ok=True) def text_to_speech(text, language="zh", speaker="default", speed=1.0, output_file="output.wav"): payload = { "text": text, "language": language, "speaker": speaker, "speed": speed } try: response = requests.post(BASE_URL, json=payload) if response.status_code == 200: with open(output_file, "wb") as f: f.write(response.content) print(f"成功生成: {output_file}") return True else: print(f"生成失败: {response.text}") return False except Exception as e: print(f"请求出错: {str(e)}") return False # 获取所有章节文件 chapter_files = [f for f in os.listdir() if f.startswith("santi_clean_chapter")] # 按顺序处理每个章节 for i, chapter_file in enumerate(sorted(chapter_files)): chapter_num = i + 1 output_file = os.path.join(OUTPUT_DIR, f"chapter_{chapter_num}.wav") with open(chapter_file, "r", encoding="utf-8") as f: text = f.read() # 分批次处理长文本（避免内存问题） max_length = 500 # 每次处理500字 segments = [text[j:j+max_length] for j in range(0, len(text), max_length)] segment_files = [] for seg_num, segment in enumerate(segments): seg_file = os.path.join(OUTPUT_DIR, f"chapter_{chapter_num}_seg_{seg_num+1}.wav") if text_to_speech(segment, output_file=seg_file): segment_files.append(seg_file) time.sleep(1) # 避免请求过于频繁 # 合并分段音频 if segment_files: combined = AudioSegment.empty() for seg_file in segment_files: combined += AudioSegment.from_wav(seg_file) os.remove(seg_file) # 删除临时文件 combined.export(output_file, format="wav") print(f"章节 {chapter_num} 合并完成: {output_file}") print("有声书生成完成！")

运行这个脚本，它会把所有章节文本转换成WAV音频文件，并保存在audiobook目录中。

4. 高级功能与优化技巧

4.1 多语言有声书制作

Qwen3-TTS支持10种语言，我们可以轻松制作多语言版本的有声书。比如，我们要制作中英双语版本：

def generate_multilingual(text, output_prefix): # 中文版本 text_to_speech(text, language="zh", output_file=f"{output_prefix}_zh.wav") # 英文版本（假设有英文翻译文本） text_to_speech(english_text, language="en", output_file=f"{output_prefix}_en.wav")

4.2 添加背景音乐和音效

为了让有声书更专业，我们可以添加背景音乐和音效。使用pydub库可以轻松实现：

from pydub import AudioSegment def add_background(audio_file, bg_file, output_file, bg_volume=-20): # 加载语音和背景音乐 voice = AudioSegment.from_wav(audio_file) background = AudioSegment.from_mp3(bg_file) # 调整背景音乐长度和音量 background = background[:len(voice)].fade_out(3000) # 3秒淡出 background = background + bg_volume # 降低音量 # 混合音频 combined = voice.overlay(background) combined.export(output_file, format="wav")

4.3 使用不同语音风格

Qwen3-TTS支持多种语音风格，可以为不同角色分配不同声音：

# 旁白使用默认声音 text_to_speech(narration_text, speaker="default") # 男主角使用深沉声音 text_to_speech(hero_text, speaker="deep_male") # 女主角使用温柔声音 text_to_speech(heroine_text, speaker="soft_female")

5. 最终成品打包与分享

5.1 合并所有章节

把所有章节音频合并成一个完整的有声书：

def combine_chapters(chapter_files, output_file="full_audiobook.wav"): full_book = AudioSegment.empty() for chapter_file in sorted(chapter_files): chapter_audio = AudioSegment.from_wav(chapter_file) full_book += chapter_audio full_book += AudioSegment.silent(duration=2000) # 章节间添加2秒静音 full_book.export(output_file, format="wav")

5.2 转换为MP3格式

WAV文件体积较大，我们可以转换为MP3节省空间：

def convert_to_mp3(wav_file, mp3_file, bitrate="128k"): audio = AudioSegment.from_wav(wav_file) audio.export(mp3_file, format="mp3", bitrate=bitrate)

5.3 添加元数据

为有声书添加标题、作者等元数据：

from mutagen.mp3 import MP3 from mutagen.id3 import ID3, TIT2, TPE1, TALB def add_metadata(mp3_file, title, author, album): audio = MP3(mp3_file, ID3=ID3) # 添加ID3标签（如果不存在） try: audio.add_tags() except: pass audio["TIT2"] = TIT2(encoding=3, text=title) # 标题 audio["TPE1"] = TPE1(encoding=3, text=author) # 作者 audio["TALB"] = TALB(encoding=3, text=album) # 专辑 audio.save()

6. 总结与进阶建议

6.1 本教程回顾

我们完成了一个完整的有声书制作流程：

搭建了Qwen3-TTS服务环境
预处理了原始文本内容
批量生成了各章节的语音文件
添加了背景音乐和音效
合并并优化了最终成品

6.2 性能优化建议

批量处理：可以同时启动多个容器实例，并行处理不同章节
缓存机制：对重复内容（如章节标题）的语音进行缓存
GPU加速：确保使用支持CUDA的GPU以获得最佳性能

6.3 创意扩展思路

多角色广播剧：为小说中不同角色分配不同声音
语言学习材料：制作同一内容的多语言版本
个性化定制：根据听众偏好调整语速和音色
播客制作：将博客文章自动转换为播客节目

现在，你已经掌握了用AI制作专业级有声书的全部技能。快去把你的文字内容变成动人的声音吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Qwen3-TTS制作多语言有声书：从文本到语音的完整实战流程