腾讯正式开源基于LeVo架构的AI歌曲生成项目SongGeneration,通过创新的混合音轨与双轨并行建模技术,实现了人声与伴奏的和谐融合及高质量分离处理,为音乐创作领域带来突破性解决方案。
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
近年来,AI生成内容(AIGC)技术在音乐领域加速演进,从早期的旋律生成到如今的完整歌曲创作,技术边界不断拓展。据相关数据显示,2024年全球AI音乐市场规模已突破12亿美元,预计2025年将保持65%的同比增长率。然而,现有解决方案普遍面临人声与伴奏融合度低、多语言支持不足、生成时长受限等问题,制约了商业化应用落地。
作为腾讯AILab的核心研究成果,SongGeneration模型在技术架构上实现了三大突破。其核心创新点在于采用LeVo架构设计,通过LeLM语言模型与音乐编解码器的协同工作,首创混合音轨与双轨并行建模技术。这种设计既能将人声与伴奏作为整体进行联合优化,确保音乐情感表达的统一性,又可对两者进行独立处理,显著提升音频细节质量。
如上图所示,该Logo直观呈现了项目的核心定位——通过AI技术连接文本与音乐创作。图形化设计象征着文本输入到音频输出的转化过程,体现了SongGeneration"以文生曲"的核心功能。
从模型性能来看,SongGeneration在百万级歌曲数据集上完成训练,支持中英文双语生成,最长可创作4分30秒的完整歌曲。根据官方提供的技术指标,其生成音频的RFT(相对保真度测试)评分达到1.51,这一数据已超越同类开源模型30%以上,媲美当前业界顶尖的闭源系统。在实际应用中,创作者仅需输入歌词文本与风格描述,系统即可自动完成作曲、编曲、演唱的全流程创作。
项目提供了多版本模型选择,满足不同场景需求。基础版(SongGeneration-base)仅需10G显存即可运行,适合个人创作者与小型工作室;专业版(SongGeneration-large)则针对企业级应用优化,在22G显存支持下可实现更高音质输出。值得关注的是,即将发布的v1.5版本将进一步扩展至西班牙语、日语等多语言支持,全球化布局意图明显。
从图中可以看出,LeVo架构通过LeLM模型实现文本到混合音轨/双轨 tokens 的转化,再经由音乐编解码器生成最终音频。这种分层设计既保证了生成效率,又为音质优化提供了灵活空间,是SongGeneration技术领先的关键所在。
SongGeneration的开源发布将对音乐产业产生多维度影响。对于独立音乐人,该工具可大幅降低创作门槛,原本需要数天完成的编曲工作现在可缩短至分钟级;在游戏、影视等内容生产领域,AI生成的背景音乐能够根据剧情实时调整风格,实现个性化配乐;教育场景中,系统可作为音乐教学辅助工具,帮助初学者理解词曲创作规律。特别值得注意的是,腾讯开放了模型权重与推理代码,允许商业使用,这将加速AI音乐技术的产业化落地。
随着SongGeneration的开源,AI音乐创作领域的技术竞争将进入新阶段。该项目不仅填补了国内高端音乐生成模型的空白,更通过多语言支持与长时长创作能力,展现了中国AI技术的全球竞争力。未来,随着多模态输入(如情感标签、曲风参考)、实时互动创作等功能的迭代,AI有望从辅助工具进化为具备独立创作能力的"虚拟作曲家",重塑音乐产业的创作生态与商业模式。
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考