Qwen3-TTS 正式发布!
我们已将完整模型家族——VoiceDesign(语音设计)、CustomVoice(定制语音) 和 Base(基础克隆)——全部开源,为开源社区带来SOTA的顶尖语音合成质量。
✨ 核心亮点:
- 提供 5 个模型(0.6B 与 1.7B 参数规模)
- 支持 自由风格的语音设计与声音克隆
- 覆盖 10 种主流语言(中、英、日、韩、德、法、俄、葡、西、意)
- 配备 SOTA 级别的 12Hz 语音分词器,实现高压缩率与高保真重建
- 完整支持 微调(Fine-tuning)
- 在多项权威评测中达到 当前最优(SOTA)性能
欢迎大家使用和反馈🚀
🔗 相关资源:
- GitHub: https://github.com/QwenLM/Qwen3-TTS
- Hugging Face 模型库: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
- 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
- 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
- Hugging Face 在线 Demo: https://huggingface.co/spaces/Qwen/Qwen3-TTS
- ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
- API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design
🎉 Qwen3-ASR 与 Qwen3-ForcedAligner 正式发布,专为真实复杂场景打造的工业级语音模型来了!
🔊 核心亮点:
✅ 支持 52 种语言与方言(30 种语言 + 22 种方言/口音),自动识别语种
✅ 抗噪能力强:嘈杂环境、多人对话、甚至唱歌🎤都能稳稳识别
✅ 超长音频支持:单次推理最长 20 分钟,告别分段烦恼
✅ 高精度对齐:Qwen3-ForcedAligner 提供词/短语级时间戳(11 种语言),精度超越 MFA/CTC/CIF 等传统方案
🛠️ 全链路开源:
配套完整的推理与微调工具链,支持 vLLM 批处理、流式识别、异步服务,开箱即用,轻松部署!
🔗 一键直达:
• GitHub:https://github.com/QwenLM/Qwen3-ASR
• Hugging Face:https://huggingface.co/collections/Qwen/qwen3-asr
• 魔搭 ModelScope:https://modelscope.cn/collections/Qwen/Qwen3-ASR
• 体验 Demo:HF / 魔搭 搜索 “Qwen3-ASR” 即可试玩
• 技术博客 & 论文详见项目主页
真实场景实测能打,开发者友好,欢迎 Star ⭐ 体验 & 反馈~