news 2026/3/2 11:39:48

腾讯开源SongGeneration:LeVo架构高品质AI作曲

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯开源SongGeneration:LeVo架构高品质AI作曲

腾讯正式宣布开源旗下AI音乐生成项目SongGeneration,该项目基于创新的LeVo架构,实现了从文本到完整歌曲的端到端生成能力,为人声与伴奏的和谐融合提供了突破性解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

行业现状:AI音乐生成进入多模态融合新阶段

随着AIGC技术的快速迭代,音乐生成领域正从单一旋律创作向"歌词-旋律-编曲-演唱"全链路自动化演进。据行业研究显示,2024年全球AI音乐市场规模已突破12亿美元,其中文本驱动的完整歌曲生成成为技术竞争焦点。当前主流方案普遍面临人声与伴奏分离度不足、多语言支持有限、长音频连贯性差等问题,亟需架构层面的创新突破。

产品亮点:LeVo架构重构AI作曲技术范式

SongGeneration的核心竞争力源于其独创的LeVo(Learning Voice)架构,该架构通过混合音轨与双轨并行建模技术实现了音质与和谐度的双重突破。模型底层由LeLM语言模型与音乐编解码器构成,前者负责将文本指令转化为混合音轨 tokens(人声+伴奏融合表示)和双轨 tokens(人声/伴奏独立表示),后者则将这些 tokens 重构为48kHz高保真音频。

如上图所示,该架构创新性地采用了并行建模机制:混合音轨 tokens 确保人声与伴奏的整体和谐,双轨 tokens 则提升各自的音质表现。这种设计既解决了传统单轨模型的"混音浑浊"问题,又避免了双轨模型的"情感割裂"缺陷。

在训练数据方面,模型基于百万级歌曲数据集进行预训练,涵盖流行、摇滚、古典等多风格音乐作品。目前已发布的模型版本中,SongGeneration-base-full支持最长4分30秒的中英文歌曲生成,而-large版本通过RFT(相对保真度测试)评分达到1.51,这一指标已接近专业音乐制作人的人工混音水准。

从图中可以看出,项目提供了从base到large的多规格模型选择,其中最新的v1.5系列将支持英、中、西班牙、日语等多语言生成。不同参数规模的模型可适配从个人创作到专业制作的多样化需求,10G起步的显存要求也降低了开发者的使用门槛。

行业影响:开源生态加速音乐创作普及化

腾讯此次开源采取了"模型权重+推理代码+技术文档"全栈开放策略,开发者可通过Hugging Face获取预训练模型,或直接在Space Demo中体验文本生成歌曲的完整流程。这种开放模式有望加速AI音乐技术在内容创作、游戏配乐、广告制作等领域的落地应用。

特别值得注意的是,SongGeneration在中文歌曲生成上表现突出。得益于腾讯在中文NLP领域的技术积累,模型能精准捕捉汉语声调与旋律的映射关系,解决了此前AI生成中文歌曲"咬字不准"、"情感脱节"等痛点。在实际测试中,其生成的中文流行歌曲在专业听众盲测中获得了82%的"真人度"评分。

未来展望:多模态交互开启音乐创作新可能

随着v1.5版本的即将发布,SongGeneration将进一步扩展至西班牙语、日语等多语言支持,并计划引入情感迁移、风格融合等高级功能。腾讯表示,未来将通过社区共建方式持续优化模型,目标是实现"文本-旋律-编曲-MV"的全流程AIGC。

对于音乐行业而言,这类技术的普及可能带来创作模式的根本性变革:独立音乐人可通过AI快速完成demo制作,游戏厂商能实现动态配乐的实时生成,教育领域则可开发个性化的音乐学习工具。但与此同时,版权归属、创作伦理等问题也亟待行业共同探讨解决方案。

SongGeneration的开源,标志着中国AI企业在音乐生成领域从"技术跟随"转向"标准制定"的关键跨越。随着LeVo架构的持续迭代,我们或将迎来一个"人人皆可创作专业级歌曲"的新音乐时代。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/3 0:04:45

腾讯开源Hunyuan-0.5B轻量化大模型

腾讯正式开源混元大模型家族新成员——Hunyuan-0.5B-Instruct-GPTQ-Int4,这是一款专为高效推理设计的0.5B参数轻量化指令微调模型,通过4位量化压缩技术在保持性能的同时大幅降低部署门槛,标志着大模型向边缘设备和资源受限场景普及迈出重要一…

作者头像 李华
网站建设 2026/2/25 10:40:14

Qwen-Image-Edit-MeiTu:DiT赋能图像编辑新高度

Qwen-Image-Edit-MeiTu:DiT赋能图像编辑新高度 【免费下载链接】Qwen-Image-Edit-MeiTu 项目地址: https://ai.gitcode.com/hf_mirrors/valiantcat/Qwen-Image-Edit-MeiTu 导语:由Valiant Cat AI Lab开发的Qwen-Image-Edit-MeiTu模型&#xff0c…

作者头像 李华
网站建设 2026/3/1 14:20:59

Nitro-E:304M参数极速图文扩散模型

Nitro-E:304M参数极速图文扩散模型 【免费下载链接】Nitro-E 项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E AMD近日发布了全新的文本到图像扩散模型家族Nitro-E,以304M的轻量级参数实现了高效训练与极速推理的双重突破,…

作者头像 李华
网站建设 2026/3/2 0:10:51

java包头市大学生家教信息中介平台springboot-vue

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 java包头市大学生家教信息中介平台springboot-vue …

作者头像 李华
网站建设 2026/2/22 21:21:03

腾讯开源Hunyuan-1.8B-Instruct-FP8轻量模型

腾讯开源Hunyuan-1.8B-Instruct-FP8轻量模型 【免费下载链接】Hunyuan-1.8B-Instruct-FP8 腾讯开源混元大模型系列新成员Hunyuan-1.8B-Instruct-FP8,专为高效部署设计。它支持FP8量化,兼顾性能与资源占用,具备256K超长上下文理解能力&#xf…

作者头像 李华
网站建设 2026/2/26 4:05:11

Excalidraw反向代理配置(Nginx/Apache)示例

Excalidraw反向代理配置(Nginx/Apache)实践指南 在现代远程协作日益深入的背景下,可视化工具已成为团队沟通与创意表达的核心载体。Excalidraw 以其极简的手绘风格、出色的交互体验和原生支持实时协作的能力,在架构设计、产品原型…

作者头像 李华