腾讯HunyuanVideo-Foley开源:视频自动生成电影级音效
在一部电影中,当主角踩过碎石小径,风穿过树梢,远处传来几声鸟鸣——这些声音并非自然存在,而是由音效师精心设计的“拟音”(Foley)艺术。传统上,这种工作依赖经验丰富的艺术家逐帧匹配动作与声音,耗时且成本高昂。如今,AI正在改变这一局面。
腾讯混元团队最新开源的HunyuanVideo-Foley,首次实现了从视频画面和文本描述端到端生成高保真、语义对齐、时序精准同步的影视级音效,真正让“看得见的动作,听得见的声音”成为可能。该项目不仅发布了模型代码,还公开了训练所用的大规模多模态数据集构建方法,为后续研究提供了坚实基础。
为什么我们需要AI来做音效?
当前主流的音频生成模型如AudioLDM2、Stable Audio等,大多基于纯文本提示生成音乐或环境音。它们的问题在于:只听其言,不观其行。当你输入“一个人走在雨中的街道”,它确实能输出一段带脚步声和雨滴声的音频,但你无法保证每一步都准确落在画面的脚步帧上,也无法确保水花溅起的声音强度与动作幅度一致。
换句话说,这类模型缺乏“视觉锚定”能力,导致生成结果虽然合理,却难以用于专业影视制作——那里要求的是毫米级的时间精度和物理一致性。
而现实中的高质量音效数据又极度稀缺。现有公开数据集如VGGSound或AudioSet,主要服务于分类任务,缺少精确对齐的文本-视频-音频三元组结构。即使有少量标注样本,也往往存在噪声大、画质低、语义模糊等问题,无法支撑复杂场景下的可控生成。
这正是HunyuanVideo-Foley要解决的核心问题:如何让AI既“看懂”画面动态,又能“听清”上下文意图,并据此生成真正符合电影标准的声音?
从数据开始:10万小时TV2A三元组是怎么炼成的?
没有好数据,就没有好模型。为此,团队提出了一套全自动化的TV2A(Text-Video-to-Audio)数据pipeline,目标是构建一个涵盖丰富视觉动作、清晰音频信号和准确语义描述的高质量三模态数据集。
整个流程分为五个关键阶段:
原始素材采集
从多个授权平台收集高清视频内容,优先选择无压缩伪影、采样率≥32kHz、比特率≥128kbps的源文件。基础过滤机制
- 使用PySceneDetect进行镜头分割,提取8秒连续片段;
- 剔除静音占比超过80%的无效段落;
- 筛选音频质量达标的样本,避免低信噪比干扰。音频美学评估
引入AudioBox-aesthetic-toolkit对音频进行打分,去除美学评分低于0.6的录音(例如手机外录背景嘈杂、失真严重的情况),确保声音具备“可听性”。跨模态对齐验证
- 利用ImageBind计算视频与音频嵌入之间的余弦相似度(IB-score),保留>0.7的强关联样本;
- 使用Synchformer检测音画异步程度(DeSync),剔除偏差大于0.3的片段,保证时间同步性。自动标注系统
- 应用GenAU模型生成音频字幕(audio caption),如“a person walking on gravel path with birds chirping in the background”;
- 结合PANNs进行声音事件分类,构建均衡的类别分布,覆盖自然景观、城市街道、室内活动、运动场景等十余类主题。
最终,这套pipeline产出约10万小时的高质量TV2A三元组数据,成为目前最大规模的专业音效训练数据集之一。更重要的是,它是完全自动化的,意味着未来可以持续扩展而无需人工标注。
模型架构揭秘:MMDiT + REPA 如何实现“音画合一”?
HunyuanVideo-Foley采用一种新型多模态扩散框架,核心思想是:先对齐,再细化。
输入处理:多模态编码统一化
- 视频流:每秒抽取2帧,共16帧输入,通过ImageBind-ViT-B/16编码得到 $ V \in \mathbb{R}^{16×768} $
- 文本流:使用CLAP-Large tokenizer编码,获得全局语义嵌入 $ T \in \mathbb{R}^{77×768} $
- 音频流:原始波形经改进版DAC-VAE编码至潜空间 $ Z_0 \in \mathbb{R}^{400×128} $,对应8秒@48kHz音频,潜在速率50Hz
所有模态均映射到共享表示空间,便于后续融合。
主干网络:MMDiT —— 多模态扩散Transformer
模型采用“前融合+后精修”的两阶段设计:
第一阶段:多模态联合建模(MMDiT)
将视觉特征 $V$ 和初始噪声潜变量 $Z_t$ 拼接成统一序列:
$$
X = [\text{[V]}_1, \text{[Z]}_1, \text{[V]}_2, \text{[Z]}_2, \dots]
$$
引入交错旋转位置编码(Interleaved RoPE),显式建模音视频帧间的对应关系。例如,第$i$个视频帧应与第$i$个音频片段对齐,这种结构化的偏置极大提升了时序同步能力。
在自注意力层中,QKV均来自拼接序列,实现真正的音视频联合建模;随后接入交叉注意力层,以CLAP文本嵌入作为K/V,注入高层语义指导。
第二阶段:单模态DiT堆叠
仅作用于音频潜序列 $Z_t$,进一步优化局部声学结构。此阶段引入REPA对齐信号,增强生成稳定性。
这种分阶段策略有效缓解了多模态竞争问题:前期专注音画同步,后期聚焦音频细节重建,逻辑清晰且工程友好。
关键创新:REPA 表示对齐策略为何有效?
传统扩散模型通常直接回归目标音频表示,但由于梯度稀疏,容易出现高频失真或节奏漂移。为此,团队提出REPA(Representation-aligned Pre-training Assistance)训练策略。
具体做法如下:
- 固定加载一个预训练的ATST-Frame模型(专攻帧级音频表征学习);
- 将真实音频送入ATST-Frame,提取每一帧的深层表示 $ F_{\text{atst}} \in \mathbb{R}^{400×768} $;
- 在MMDiT的第$k$个Transformer块后,提取当前隐藏状态 $ H_k \in \mathbb{R}^{400×1536} $,并通过投影层对齐维度;
- 定义REPA损失为:
$$
\mathcal{L}{\text{REPA}} = | W(H_k) - F{\text{atst}} |_2^2
$$ - 总损失为:
$$
\mathcal{L}{\text{total}} = \mathcal{L}{\text{flow}} + \lambda \cdot \mathcal{L}_{\text{REPA}}
$$
实验表明,REPA显著提升了生成音频的物理真实感,尤其在风声、金属摩擦、织物抖动等高频细节上表现突出。同时,训练过程更稳定,收敛速度加快约20%。
为什么不用EAT?
团队对比发现,EAT虽擅长语义理解,但在时间结构保持方面弱于ATST-Frame,容易导致生成音频出现“跳跃式”失真。因此选择ATST作为教师模型更为合适。
解码器升级:DAC-VAE如何提升重建质量?
原始DAC采用离散向量量化(VQ),虽有利于压缩,但会引入量化误差,影响音质自然度。为此,团队将其改造为变分推断建模的连续版本——DAC-VAE。
关键改进包括:
- 输出128维连续潜在表示,而非离散ID序列;
- 在编码器中引入重参数化技巧,支持端到端训练;
- 潜在空间速率设为50Hz,兼顾时间分辨率与计算效率。
这一改动使得解码后的音频在PESQ、STOI、SI-SDR等客观指标上全面提升,尤其在语音清晰度和环境音层次感方面进步明显。
实验验证:全面超越现有方法
训练配置概览
| 组件 | 配置 |
|---|---|
| 自编码器 | DAC-VAE @ 48kHz, latent dim=128, rate=50Hz |
| 主干网络 | 18层MMDiT + 36层DiT,hidden dim=1536, heads=12 |
| 优化器 | AdamW, lr=1e-4, dropout=0.1 |
| 批次大小 | 有效batch=2048(128×H20 GPU) |
| CFG比率 | 3.0 |
客观指标对比(Kling-Audio-Eval)
| Model | FD↓ | KL↓ | PQ↑ | IB↑ | DeSync↓ | CLAP↑ |
|---|---|---|---|---|---|---|
| AudioLDM2 | 10.23 | 2.45 | 3.12 | 0.26 | 0.41 | 0.78 |
| MMAudio | 9.01 | 2.17 | 3.35 | 0.30 | 0.38 | 0.82 |
| Ours | 6.07 | 1.89 | 3.61 | 0.38 | 0.29 | 0.80 |
结果显示,HunyuanVideo-Foley在视觉-语义对齐(IB)和时序同步(DeSync)上优势显著,说明其真正做到了“画面动,声音跟”。
跨域泛化能力(VGGSound-Test)
尽管VGGSound多为手机录制、噪声较大,本模型仍以更高的IS(3.01 vs 2.87)和PQ(3.18 vs 2.95)胜出,证明其具备更强的真实世界适应能力。
主观听感测试(MovieGen-Audio-Bench)
| Model | MOS-Q↑ | MOS-S↑ | MOS-T↑ |
|---|---|---|---|
| Human Reference | 4.72 | 4.68 | 4.75 |
| MMAudio | 3.85 | 3.72 | 3.78 |
| Ours | 4.13 | 4.05 | 4.11 |
评审员反馈:“几乎察觉不到违和感”,“脚步声与地面材质匹配准确”,“环境音层次分明,不像机器合成”。
消融实验:哪些设计真正起了作用?
| 变体 | PQ↑ | IB↑ | DeSync↓ |
|---|---|---|---|
| Joint Attn (Text+Video+Audio) | 3.42 | 0.35 | 0.36 |
| Parallel Cross Attn | 3.48 | 0.34 | 0.37 |
| Proposed (Seq. Align) | 3.67 | 0.39 | 0.28 |
顺序对齐优于并行融合,说明“先音画同步,再加文本引导”更符合认知逻辑。
| 设置 | PQ↑ | IB↑ | MOS-T↑ |
|---|---|---|---|
| 无REPA | 3.50 | 0.36 | 3.92 |
| EAT-based REPA | 3.55 | 0.37 | 3.96 |
| ATST-based REPA | 3.67 | 0.39 | 4.11 |
再次验证ATST在帧级建模上的优越性。
| RoPE类型 | IB↑ | DeSync↓ |
|---|---|---|
| Standard RoPE | 0.36 | 0.33 |
| Interleaved RoPE | 0.39 | 0.28 |
交错式RoPE显式建模音视频对齐关系,效果立竿见影。
对影视工业意味着什么?
这项技术有望彻底重构传统音效制作流程:
| 传统流程 | AI辅助流程 |
|---|---|
| 手动查找/录制音效库 | 自动生成候选音轨 |
| 多轮剪辑调整同步 | AI自动对齐帧级动作 |
| 成本高、周期长 | 几分钟完成粗配乐 |
典型应用场景包括:
- 影视预告片快速配音:无需等待专业团队,即可生成沉浸式音效草稿;
- 游戏NPC交互音效批量生成:根据角色动作实时合成脚步、衣物摩擦等细节声音;
- 纪录片环境音补全:自动添加风吹树叶、水流潺潺等背景氛围;
- 短视频创作者一键增强:普通用户也能轻松打造“影院级”听觉体验。
更重要的是,它标志着AI开始深入参与创意生产的“最后一公里”——那些曾被认为必须由人类艺术家凭借经验与灵感完成的细腻表达,如今正被算法逐步理解和复现。
局限与未来方向
当然,当前版本仍有改进空间:
- 对罕见物理交互(如玻璃碎裂+液体溅射)建模不足;
- 多音源分离能力有限,难以独立控制各声音元素强度;
- 推理延迟约3~5秒生成8秒音频,尚未达到实时编辑标准。
未来工作将聚焦于:
- 引入物理引擎先验知识,提升声学合理性;
- 开发可控编辑接口,支持音效替换、增删、调参;
- 推出轻量化版本,适配边缘设备部署。
这种高度集成的设计思路,正引领着智能音频设备向更可靠、更高效的方向演进。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考