news 2026/5/6 23:34:23

【论文阅读】UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

code:UniAVGen - Unified Audio and Video Generation

介绍

解决的问题:现在很多开源“音频-视频生成”要么是两段式:先出视频再配音(或反过来),要么是“端到端”但对人声(尤其是说话、情绪、音色)很弱。两段式最大毛病是:生成时模态是解耦的,视频在“听不见”的环境里生成,音频在“看不见”的环境里生成,于是常见问题是:

  • 口型对不上(lip sync)

  • 语气/情绪和表情/动作不一致

  • 音色/身份信息不稳(这人看起来像 A,说出来像 B)

他们要做的是:一个统一模型,同时支持三类关键任务(图1):

  1. 文本 + 人脸参考图 → 同时生成音频和视频

  2. 给定视频 → 配音(dubbing)

  3. 给定音频 → 音频驱动视频(talking / motion)

方法

总体框架:Dual-Branch Joint Synthesis(双分支联合合成):一条视频分支、一条音频分支,两条都是 DiT 流,并且强调对称设计:结构一样(或尽量对应),这样两边的特征层级、token 语义更容易“对齐”,为跨模态交互打地基。

视频分支建模:

  • 视频先按 16 fps 处理,用预训练 VAE 编到 latent:zv

  • 参考人脸图 Iref和条件视频也编码成 zvref,zvcond

  • 输入拼成:[z0vref,z0vcond,ztv]

  • 文本视频描述 Tv​ 用 umT5 编码成 ev,通过 cross-attn 注入

  • 训练用 Flow Matching,损失是预测向量场:

音频分支建模

  • 音频 24kHz,转 Mel 频谱作为 latent za

  • 可选参考音频 Xaref、条件音频 Xacond 也转成 zaref,zacond

  • 输入拼成:[z0aref,z0acond,zta]

  • 语音内容文本 Ta 经 ConvNeXt V2 blocks 提特征 ea,也通过 cross-attn 注入

  • 同样 Flow Matching,损失是:

Asymmetric Cross-Modal Interaction(ATI)

到底“非对称”在哪?论文专门用图3对比三种交互方式:

  • SGI(全局互看):每个 token 看对方所有 token。简单但训练难收敛,因为没有显式时间对齐。

  • STI(对称时间对齐):按时间段一一对应互看,收敛快,但上下文太窄,信息不够。

  • ATI(本文):时间对齐,但 A→V 与 V→A 用不同策略,各取所长。

A2V:Audio → Video 对齐器(为什么要“窗口”上下文?)

口型/表情不是只由“这一瞬间的音素”决定,还受前后音素影响。
做法是:把 video tokens reshape 成按帧的 Hv,音频也 reshape 成 Ha。

对第 i 帧视频,不只看 i 帧音频,而是拼一个窗口:

然后做 frame-wise cross-attn,让视频帧去 query 这个音频上下文:

直觉:视频每帧需要“听到附近一小段”,这样更容易学到口型-发音的对应。

3.2 V2A:Video → Audio 对齐器(为什么要“插值”?)

音频 token 时间分辨率通常更细:一个视频帧对应一段音频 token。若硬对齐会很粗。
他们令每个音频 token jjj 对应视频帧 i=⌊j/k⌋i=\lfloor j/k\rfloori=⌊j/k⌋,并用相邻两帧做线性插值:

再让音频 token 去 query 这个“平滑的视觉上下文”:

直觉:音频是连续流,视频帧是离散采样;插值能把“嘴巴从帧 i 到帧 i+1 的过渡”传给音频,帮助音色/情绪/身份线索更稳。

一个很关键但容易忽略的训练技巧:他们把交互输出的线性层 Wo 零初始化,避免一开始跨模态信息太强把各自生成能力“带崩”。

Face-Aware Modulation(FAM)

为什么能帮口型对齐?

作者认为 joint AV generation 里真正需要强耦合的是脸部区域。让跨模态交互去处理整张图会:

  1. 浪费容量

  2. 早期训练把背景也“搅乱”,引入伪相关

所以他们做了一个 动态人脸mask预测头,在每个交互层输出软 mask:

并用人脸检测得到的 GT mask 监督;更聪明的是:监督权重 λm​ 逐渐衰减到 0,让模型从“先盯脸学对齐”过渡到“后期放开学更全局的交互”。

mask 怎么用?

  • A2V:只在 mask 位置更新视频特征:

  • V2A:在做插值上下文前,用 mask 加权视频特征,让音频主要从“脸相关”区域拿信息。

MA-CFG(Modality-Aware CFG)

是在推理阶段补哪一刀?

传统 CFG 是单模态:用“有条件输出”和“无条件输出”的差来加强条件控制。
但在 joint AV 里,如果只是分别对音频和视频做 CFG,并不会显式加强“音→视”“视→音”的依赖。

提出 MA-CFG:先做一次 forward 得到“无跨模态交互”的 unimodal baseline uθa,uθv​​,再用“有跨模态交互”的 uθa,v​​ 去引导两个模态:

可以理解成:把 CFG 的“强化差分”从文本条件,挪一部分给跨模态相关性。

实验

训练流程(三阶段)

  1. 先单训音频分支(Emilia 英文子集,160k steps)

  2. 再端到端联合训练(内部真人 AV 数据集,30k steps)

  3. 最后做多任务训练(10k steps,五任务比例 4:1:1:2:2)

指标设计

  • 音频质量:PQ、CU(AudioBox-Aesthetics),以及 WER(Whisper-large-v3)

  • 视频质量:VBench 的 SC/DD/IQ

  • 跨模态一致性:

    • LS:SyncNet 置信度

    • TC、EC:用 Gemini-2.5-Pro 打分(0~1),三次评估取平均

主结果(表1):训练样本 1.3M vs Ovi 30.7M,UniAVGen 在 TC/EC 上更强,LS 也接近最强,视频动态(DD)和画质(IQ)也领先或持平。

消融:ATI 与 FAM 是否真有用?

  • 交互机制消融(表2):从 SGI → STI → ATI,ATI(双向)最好,TC/EC 提升最明显。

  • FAM 消融(表3):带监督的 FAM 明显好于不带;衰减 λm\lambda_mλm​ 的设置最好(TC/EC 最优)。

  • MA-CFG(图6):加了之后情绪与动作更“跟着声音走”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 16:44:11

AdGuard广告拦截器:终极网络保护解决方案

在当今数字时代,网络广告无处不在,隐私泄露风险与日俱增。AdGuard浏览器扩展作为一款完全免费的开源工具,为您提供全方位的网络保护,让您重新掌控自己的在线体验。 【免费下载链接】AdguardBrowserExtension AdGuard browser exte…

作者头像 李华
网站建设 2026/5/6 0:31:11

游戏中的抛物线:从手雷到弓箭的物理轨迹

文章摘要 抛物线是中间高两头低或中间低两头高的光滑曲线,常用于表示物体在重力作用下的运动轨迹。在FPS游戏中,手雷、弓箭等抛射物的弧形弹道都遵循抛物线规律。数学上,抛物线可用yax表示,a决定开口方向和形状;物理上…

作者头像 李华
网站建设 2026/5/6 21:35:26

3D渲染:视锥体与平面方程揭秘

直接先把这次要讲的东西,用一句大白话捏成一个球:在 3D 渲染里,“相机视野”这件事,本质上就是: 有一个“视锥体”——由 6 个平面围起来的立体金字塔, 你只画落在这个金字塔里面的东西。 怎么判断“在不在…

作者头像 李华
网站建设 2026/4/30 14:31:28

10、运输机机身综合设计技术解析

运输机机身综合设计技术解析 1. 三维机身计算机建模方法 在当前科技发展阶段,运用集成计算机辅助设计系统 CAD/CAM/CAE/PLM 是研发和维护具有竞争力飞机生命周期的必要条件。传统的总体视图图纸、LCS、单元布局和理论图纸可与三维模型结合使用,以清晰明确地呈现信息。 飞机…

作者头像 李华
网站建设 2026/5/3 11:23:16

18、使用克罗托夫函数快速合成智能信息通信机器人轨迹

使用克罗托夫函数快速合成智能信息通信机器人轨迹 1. 引言 信息通信机器人(ICR)是一种由移动传感器和电信航空平台组成的无线传感器网络,它们在空间中协同(合理)移动。移动传感器聚集成簇,可被视为分布式(簇)传感器。当ICR执行信息通信功能时,簇传感器的结构和信息通…

作者头像 李华
网站建设 2026/5/4 17:03:48

19、使用克罗托夫函数进行快速合成轨迹优化

使用克罗托夫函数进行快速合成轨迹优化 1. 扩张原理与不变嵌入方法概述 扩张原理与不变嵌入方法的核心思想是将初始任务纳入一组优化任务中(即不变嵌入)。在这个过程中,各个任务之间可能存在简单的关系,并且在这组任务中,有一个任务可以通过克罗托夫方法轻松求解。之后,…

作者头像 李华