如何让AI说出四川话?GLM-TTS方言克隆实战
你有没有想过,让AI用熟悉的乡音和你打招呼?比如一段四川话:“今天天气巴适得很!”——不是机械朗读,而是带着地道口音、自然语调,甚至还有点“川普”味儿的语音。这听起来像科幻场景,但借助GLM-TTS这个开源语音合成模型,只需几秒参考音频,就能实现。
更关键的是,整个过程不需要训练模型,也不依赖复杂标注,普通人也能上手。本文将带你从零开始,实操如何用 GLM-TTS 克隆方言音色,生成带有地方口音的自然语音,并分享我在使用过程中的真实经验与避坑建议。
1. 为什么GLM-TTS能“说”四川话?
传统TTS(文本转语音)系统大多只能输出标准普通话,想要加入方言或情感,往往需要大量标注数据重新训练。而 GLM-TTS 的核心优势在于它的零样本语音克隆能力——只要给它一段目标说话人的音频,哪怕只有5秒钟,它就能提取出音色、口音、语调等特征,并应用到新文本的合成中。
这意味着:
- 你可以上传一段四川话录音 → 让AI用同样的腔调念出任意新句子
- 可以用东北话、粤语、上海话做参考 → AI自动模仿对应口音
- 不需要微调模型,不依赖专业设备,普通手机录音即可起步
背后的原理其实很巧妙。模型内部有一个说话人编码器(Speaker Encoder),它会把输入的参考音频压缩成一个高维向量(称为 speaker embedding)。这个向量就像声音的“指纹”,包含了音色、节奏、口音等信息。在生成阶段,这个指纹被作为条件注入声学模型,引导输出贴近目标风格。
由于模型在训练时见过大量不同地域、不同口音的真实语音数据,它已经学会了如何将这些声学特征与语言内容解耦。因此,即使你只提供一句“你好啊”,它也能“脑补”出完整的发音模式,包括四川话特有的声调起伏和元音变化。
2. 快速部署与环境准备
本镜像已由科哥完成WebUI二次开发,支持可视化操作,极大降低了使用门槛。以下是启动步骤:
2.1 启动服务
推荐使用脚本一键启动:
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh或者手动运行:
python app.py启动后,在浏览器访问:http://localhost:7860
⚠️ 注意:每次启动前必须激活
torch29虚拟环境,否则会报错。
2.2 界面概览
打开页面后你会看到简洁的 WebUI 界面:
- 左侧为「参考音频」上传区
- 中间是「参考文本」和「要合成的文本」输入框
- 下方有高级设置选项
- 底部是「开始合成」按钮
整个流程非常直观:上传音频 → 输入文本 → 点击合成 → 下载结果。
3. 实战:让AI说出四川话
我们来一步步完成一次真实的方言克隆任务。
3.1 准备参考音频
这是最关键的一步。为了生成地道的四川话语音,你需要一段清晰的本地人录音。
✅ 推荐做法:
- 使用手机录制,环境安静无杂音
- 内容可以是日常对话,如:“今天吃了火锅没得?”
- 长度控制在3–10秒之间
- 单一人声,避免多人对话或背景音乐
❌ 避免情况:
- 录音模糊、有回声
- 包含广告背景音或音乐
- 时间过短(<2秒)或过长(>15秒)
我测试时用了一段朋友录的四川话:“明天要去赶场,早点起来哦。” 效果出奇地好,AI不仅复现了音色,连那种慢悠悠的语调都保留了下来。
3.2 填写参考文本(可选)
在「参考音频对应的文本」框中输入你录音的内容。虽然系统可以自动识别,但手动填写能显著提升音色还原度。
例如:
明天要去赶场,早点起来哦。如果你不确定原话怎么说,也可以留空,系统会尝试自动对齐。
3.3 输入目标文本
在「要合成的文本」框中输入你想让AI说的新句子。支持中文、英文、中英混合。
试试这句:
成都的宽窄巷子真热闹,周末一起去逛嘛!你会发现,AI生成的语音不仅用了四川口音,连“嘛”字的语气助词也处理得恰到好处,完全不像机器朗读。
3.4 调整参数优化效果
点击「⚙️ 高级设置」展开更多选项:
| 参数 | 说明 | 建议值 |
|---|---|---|
| 采样率 | 决定音质 | 32kHz(高质量) |
| 随机种子 | 控制生成稳定性 | 固定为42 |
| 启用 KV Cache | 加速长文本生成 | ✅ 开启 |
| 采样方法 | 影响语调自然度 | ras(推荐) |
首次尝试建议使用默认参数。若发现语音生硬,可尝试更换随机种子或改用32kHz采样率。
4. 批量生成与自动化处理
如果你需要制作一系列方言语音内容(比如短视频配音、地方广播稿),可以使用批量推理功能。
4.1 创建任务文件
准备一个 JSONL 文件,每行一个任务:
{"prompt_text": "今天天气真不错啊!", "prompt_audio": "examples/sichuan/audio1.wav", "input_text": "我们一起去公园散步吧。", "output_name": "sichuan_happy"} {"prompt_text": "累死了,不想动了", "prompt_audio": "examples/tired/audio2.wav", "prompt_audio": "examples/sichuan/audio2.wav", "input_text": "这工作干不完咯。", "output_name": "sichuan_tired"}字段说明:
prompt_text:参考音频原文(可选)prompt_audio:音频路径(必填)input_text:目标文本(必填)output_name:输出文件名(可选)
4.2 上传并执行
进入「批量推理」标签页:
- 点击「上传 JSONL 文件」
- 设置输出目录(默认
@outputs/batch) - 点击「🚀 开始批量合成」
完成后所有音频会打包成 ZIP 下载,适合批量生产场景。
5. 提升效果的关键技巧
别以为上传音频就完事了。要想获得真正自然的语音,还得掌握一些实用技巧。
5.1 如何选择最佳参考音频?
经过多次测试,我发现以下特征的音频克隆效果最好:
- 清晰度高:无噪音、无混响
- 情感自然:不要太夸张,也不要太平淡
- 语速适中:太快或太慢都会影响泛化能力
- 长度5–8秒:足够提取特征,又不会浪费算力
建议建立自己的“优质音频库”,保存效果好的录音,后续可反复使用。
5.2 处理多音字和专业术语
中文最难搞的就是多音字。比如“重”在“重要”里读 zhòng,在“重复”里却是 chóng。
GLM-TTS 提供了一个强大的解决方案:通过configs/G2P_replace_dict.jsonl自定义发音规则。
示例配置:
{"word": "重", "context": "重要", "pronunciation": "zhong4"} {"word": "行", "context": "银行", "pronunciation": "hang2"} {"word": "冠", "context": "冠心病", "pronunciation": "guan4"}添加后重启服务即可生效。这个功能特别适合医疗、金融、教育等行业,确保关键术语读音准确。
5.3 情感迁移:让AI“带情绪”说话
你可能注意到,同一个音色,开心时和生气时说话方式完全不同。GLM-TTS 能通过参考音频的情感特征,自动迁移到新文本中。
操作很简单:
- 准备一段“热情洋溢”的参考音频 → 生成语音也会充满活力
- 换成低沉缓慢的录音 → 输出自然变得温柔或忧伤
某客服公司就利用这一点,建立了“欢迎模式”和“安抚模式”两套模板,在客户投诉时切换为温和语调,满意度提升了近三成。
6. 常见问题与解决方案
6.1 生成的音频在哪里?
所有输出文件自动保存在@outputs/目录下:
- 单条合成:
@outputs/tts_时间戳.wav - 批量任务:
@outputs/batch/文件名.wav
可通过文件管理器直接下载。
6.2 音色不像怎么办?
常见原因及解决办法:
- 音频质量差→ 更换清晰录音
- 未填参考文本→ 补充准确文字
- 背景噪音大→ 重新录制安静环境下的音频
- 情感不匹配→ 选择更贴近目标情绪的参考
建议多试几个不同录音,找到最合适的组合。
6.3 支持哪些语言?
目前主要支持:
- ✅ 中文普通话
- ✅ 英文
- ✅ 中英混合
其他方言(如粤语、闽南语)也能模拟,但效果取决于训练数据覆盖程度。四川话、湖南话、河南话等北方官话体系表现较好。
6.4 生成太慢怎么优化?
提速建议:
- 使用 24kHz 采样率(而非 32kHz)
- 确保开启 KV Cache
- 缩短单次合成文本长度(建议 <200 字)
- 检查 GPU 显存是否充足(推荐 ≥12GB)
7. 总结:AI语音的“方言自由”时代已来
通过这次实战,我们可以看到,GLM-TTS 不只是一个语音合成工具,更是一个声音风格迁移平台。它打破了传统TTS的局限,让我们可以用极低成本,创造出个性化、有温度的声音内容。
无论是:
- 制作带地方口音的短视频解说
- 构建具有亲和力的智能客服
- 复刻亲人声音讲睡前故事
- 为游戏角色定制独特嗓音
这一切,现在只需要一段音频 + 一句话文本就能实现。
更重要的是,这套方案完全基于开源模型,无需高昂授权费用,也不依赖云端API,数据安全更有保障。配合科哥开发的WebUI,即使是非技术人员也能快速上手。
未来,当AI不仅能“说话”,还能“说人话”——带着乡音、情绪和个性,那才是真正的智能交互。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。