适合小白的GLM-TTS教程,跟着做就能成功
你是不是也遇到过这些情况:想给短视频配个专属人声,却卡在语音合成工具复杂的设置里;想用自己声音生成有声书,但试了几个模型都像机器人在念稿;或者只是单纯想试试“用3秒录音克隆自己的声音”——结果连Web界面都打不开?
别担心。今天这篇教程,就是专为完全没接触过TTS、没写过代码、甚至不太熟悉Linux命令的小白写的。不需要懂什么是“音素”“梅尔谱”“GRPO强化学习”,也不用配置环境、编译模型、下载权重。你只需要一台能跑网页的电脑(Windows/Mac/Linux都行),按步骤点几下、输几行命令,5分钟内就能听到自己声音说出你想听的话。
全文没有术语轰炸,不堆砌参数,不讲原理只讲操作。所有步骤都经过实测验证,截图位置、按钮名称、文件路径全部真实可查。文末还附上了常见卡点的“急救包”——90%的新手问题,这里都有答案。
准备好了吗?我们开始。
1. 第一步:启动你的语音工厂
GLM-TTS不是需要你从零搭建的项目,它已经打包成一个开箱即用的镜像。你只需要唤醒它。
重要前提:这个镜像默认运行在Linux服务器环境(如云主机或本地Ubuntu),如果你用的是Windows电脑,需先通过SSH连接到服务器(推荐使用Termius或Windows Terminal)。不会连?别急,文末“新手急救包”第1条就教你30秒搞定。
打开终端(Terminal),依次输入以下三行命令:
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh每一行都敲完回车,看到类似这样的输出,就说明启动成功了:
Running on local URL: http://localhost:7860现在,打开你电脑上的浏览器(Chrome/Firefox/Safari均可),在地址栏输入:
http://localhost:7860按下回车——你将看到一个干净、简洁、带中文标签的网页界面。这就是你的语音合成控制台。
小贴士:如果打不开页面,请确认是否在服务器本机访问(不是你本地电脑的浏览器直接输地址)。若你在远程服务器上操作,需把
localhost换成服务器的公网IP,例如http://123.45.67.89:7860(IP请替换成你自己的)。
2. 第二步:用3秒录音,让AI学会你的声音
这是整个流程最神奇也最简单的一步:零样本克隆。不需要训练,不需要上传几十条音频,只要一段3–10秒清晰的人声,GLM-TTS就能提取出你的音色特征。
2.1 准备参考音频
- 找一段你自己说的录音(手机录就行),内容随意,比如:“你好,今天天气不错”;
- 时长控制在5秒左右最佳(太短识别不准,太长反而增加干扰);
- 格式用最常见的
.wav或.mp3(微信语音发给自己再保存为MP3也行); - 确保环境安静,没背景音乐、没键盘声、没人说话。
2.2 上传并确认
在网页界面上,找到标有「参考音频」的灰色区域,点击它,选择你刚准备好的音频文件。
上传完成后,你会看到:
- 音频波形图显示出来;
- 下方出现一个文本框,写着「参考音频对应的文本」。
强烈建议填写这个文本!哪怕你不确定原话一字不差,也尽量写个八九不离十。比如录音是“你好啊”,就填“你好啊”。这能大幅提升音色还原度和发音准确率。
❗ 注意:不要在这里填“要合成的文本”,那是下一步的事。这一步只填录音里实际说了什么。
3. 第三步:输入文字,一键生成你的声音
现在,轮到最关键的一步:告诉AI你想让它说什么。
在「要合成的文本」输入框中,输入你想转换成语音的文字。支持:
- 纯中文(“会议纪要请明天上午十点前发我”);
- 纯英文(“The report is ready for review.”);
- 中英混合(“请查看附件中的 Q3 Report.pdf”)。
小白友好提示:
- 单次建议不超过150字(太长容易断句生硬);
- 正确使用标点!句号、问号、逗号会直接影响停顿和语调;
- 不用加“朗读”“请说”这类指令,直接写内容本身即可。
填好后,点击右下角那个醒目的绿色按钮:** 开始合成**。
等待5–20秒(取决于GPU性能和文本长度),你会听到浏览器自动播放生成的语音——就是你的声音,说着你刚输入的话。
成功了!生成的音频已自动保存在服务器上的这个路径:
@outputs/tts_20251212_113000.wav(文件名里的数字是时间戳,每次都不一样)
你可以用SCP、SFTP工具(如FileZilla),或直接在服务器终端用wget命令把它下载到本地:
wget http://localhost:7860/file=@outputs/tts_20251212_113000.wav -O my_voice.wav进阶小技巧:第一次生成后,试试改一个字再点一次。你会发现,哪怕只改“明天”为“后天”,新音频也是全新生成的,音色、语调、停顿风格完全一致——这才是真正可用的个性化语音。
4. 第四步:批量生成,效率翻10倍
当你需要生成多段语音时(比如给10页PPT配旁白、为20条商品描述配音),手动点10次太费劲。GLM-TTS提供了真正的批量处理能力,而且操作比Excel还简单。
4.1 准备一个“任务清单”
新建一个纯文本文件,命名为tasks.jsonl(注意是.jsonl,不是.json)。每行写一个JSON对象,格式如下:
{"prompt_text": "大家好,欢迎来到产品发布会", "prompt_audio": "examples/prompt/host.wav", "input_text": "今天我们将发布全新一代智能音箱", "output_name": "intro_01"} {"prompt_text": "这款音箱支持远场语音和多轮对话", "prompt_audio": "examples/prompt/host.wav", "input_text": "它采用双麦克风阵列,拾音距离达5米", "output_name": "feature_01"}说明(小白版):
prompt_text:你用来克隆声音的那段录音里实际说的话(和第二步填的一样);prompt_audio:那段录音在服务器上的完整路径(提前把音频放到/root/GLM-TTS/examples/prompt/下);input_text:你这次想让它说的新内容;output_name:生成的音频叫什么名字(不填就默认叫output_0001.wav)。
只要保证每行是一个合法JSON,且字段名拼写正确,就能跑通。
4.2 上传并执行
回到网页界面,切换到顶部的「批量推理」标签页。
- 点击「上传 JSONL 文件」,选中你刚保存的
tasks.jsonl; - 在下方设置里,保持默认值即可(采样率24000、种子42);
- 点击「 开始批量合成」。
你会看到实时滚动的日志,比如:
Processing task 1/2... Generated: output_0001.wav Processing task 2/2... Generated: output_0002.wav All done! ZIP ready.点击「下载ZIP」,解压后就能得到所有生成的音频文件。
真实体验:一位教育博主用这个功能,3分钟内为整套小学语文课文(共42课)生成了配套朗读音频,全程没点错一次。
5. 第五步:让声音更自然——3个小白必调的“魔法开关”
默认设置已经很好用,但如果你想让语音更像真人,只需动3个地方,不用改代码、不碰配置文件。
5.1 换个采样率:质量 vs 速度
在「基础语音合成」页面,点击「⚙ 高级设置」,你会看到「采样率」选项。
- 24000 Hz:速度快、显存占用低,适合日常快速试听、短视频配音;
- 32000 Hz:音质更细腻、高频更清晰,适合有声书、播客、正式汇报。
小白操作:第一次用选24000;确认效果满意后,再换32000重跑一遍,对比听——差别非常明显。
5.2 固定随机种子:让结果可重复
同一段文字+同一段录音,有时生成的语音语调略有不同。这是因为模型内部有随机性。
小白操作:把「随机种子」从默认的空值,改成一个固定数字,比如42。这样每次点“开始合成”,出来的都是完全一样的语音。对需要反复调试、统一风格的场景特别有用。
5.3 开启KV Cache:长文本不卡顿
当你要合成超过100字的内容时,可能会感觉生成变慢、甚至中途卡住。
小白操作:确保「启用 KV Cache」前面的勾是打上的。这个功能就像给AI装了个“短期记忆”,让它处理长句时更流畅、更省显存。
实测对比:一段180字的产品介绍,在开启KV Cache后,生成时间从42秒降到26秒,且语调更连贯。
6. 第六步:避坑指南——90%新手卡点都在这
我们把用户反馈最多、最容易踩的6个坑,浓缩成一张“急救清单”。遇到问题,先看这里:
| 问题现象 | 最可能原因 | 一句话解决 |
|---|---|---|
| 打不开 http://localhost:7860 | 未激活虚拟环境或端口被占 | 先运行source /opt/miniconda3/bin/activate torch29,再bash start_app.sh;若报“port occupied”,把7860换成7861(改app.py第12行) |
| 上传音频后没反应 | 音频格式不支持或时长超限 | 改用.wav格式;用Audacity剪成5秒;确认文件大小<20MB |
| 生成语音像机器人 | 参考音频质量差或没填参考文本 | 换一段安静、清晰、5秒左右的录音;务必填写「参考音频对应的文本」 |
| 中文发音不准(如“重庆”读成“重qìng”) | 缺少音素控制 | 切换到「高级功能」→「音素模式」,或在文本中用括号标注拼音,如“重庆(chóng qìng)” |
| 批量任务全失败 | JSONL文件换行符错误或路径不对 | 用VS Code打开,底部状态栏确认是LF(不是CRLF);检查prompt_audio路径是否真实存在 |
| 显存不足报错 | GPU内存被其他程序占用 | 点击界面右上角「🧹 清理显存」;或重启服务器后第一时间运行GLM-TTS |
这些都不是bug,全是可预见、可绕过的操作细节。照着做,90%的问题当场消失。
7. 总结:你已经掌握了工业级TTS的核心能力
回顾一下,你刚刚完成了什么:
- 在5分钟内,用一段3秒录音,克隆出自己的声音;
- 输入任意中文/英文,生成自然、有停顿、带情绪的语音;
- 批量处理数十条任务,无需重复操作;
- 通过3个开关,自主调节音质、稳定性和速度;
- 遇到问题,能快速定位并解决。
这不是玩具模型,而是智谱AI在2025年12月开源的工业级TTS系统。它支撑着清言、Z.ai等产品的语音能力,MOS分(语音自然度评分)达到开源领域SOTA水平。而你,只用了最朴素的操作,就撬动了这套强大能力。
下一步,你可以:
- 把生成的音频导入剪映,配上字幕做成知识短视频;
- 用批量功能,为团队每周例会自动生成语音纪要;
- 尝试上传方言录音(如四川话),看看它能否复刻乡音;
- 或者,就单纯录一段“生日祝福”,发给家人——那声音,真的就是你。
技术的价值,从来不在参数多高,而在它是否伸手可及。恭喜你,已经拿到了那把钥匙。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。