UniVidX——基于扩散先验的统一多模态视频生成框架-平芜编程栈

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

一、论文标题与基本信息

论文标题：UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

作者：Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao

研究机构：MMLab@HKUST（香港科技大学多媒体实验室）、北京航空航天大学、南京大学、北京智源人工智能研究院（BAAI）、斯坦福大学、清华大学、香港中文大学（深圳）

发表时间：2026年5月1日

发表会议：SIGGRAPH 2026（ACM Transactions on Graphics）

arXiv编号：2605.00658

研究领域：计算机视觉、计算机图形学、视频生成、多模态学习

二、研究背景

2.1 视频扩散模型的发展

近年来，视频扩散模型（Video Diffusion Model, VDM）作为基础模型在视频生成领域取得了突破性进展。从早期的基于GAN的视频生成方法，到如今基于扩散概率模型的生成范式，视频生成技术经历了质的飞跃。以Sora、CogVideo、Open-Sora等为代表的大规模视频生成模型，已经能够根据文本提示生成高质量、长时序的视频内容。这些模型通过在海量视频数据上进行预训练，学习到了丰富的视觉先验知识，包括物体的运动规律、物理世界的交互逻辑以及场景的时空一致性等。这些先验知识使得视频扩散模型成为了一个强大的视觉基础模型，为下游的各种视频理解和生成任务提供了坚实的基础。

2.2 现有方法的局限性

然而，尽管视频扩散模型展现出强大的生成能力，现有的方法在利用这些模型进行多模态视频生成时存在显著的局限性。首先，大多数现有方法为每个具体的视频生成任务训练独立的专用模型。例如，视频深度估计需要一个模型，法线估计需要另一个模型，视频抠图又需要单独训练一个模型。这种"一个任务一个模型"的范式不仅导致了巨大的计算资源浪费，还使得模型之间缺乏共享的知识表示，难以实现跨任务的协同推理。

其次，现有方法通常采用固定的输入-输出映射关系。例如，一个文本到视频的生成模型只能接受文本输入并输出RGB视频，无法灵活地接受其他模态作为条件输入。这种刚性设计严重限制了模型的应用场景，当需要处理新的输入-输出组合时，往往需要重新训练模型。

第三，现有方法在处理多模态关联性时存在不足。在视频生成中，不同模态之间往往存在紧密的内在联系——例如，物体的反照率（albedo）与辐照度（irradiance）共同决定了其外观，前景与背景通过Alpha通道组合形成完整的场景。然而，大多数方法将不同模态视为独立的生成任务，忽略了它们之间的跨模态关联性，导致生成结果在多模态一致性方面表现不佳。

2.3 内在分解与Alpha通道处理的研究现状

内在分解（Intrinsic Decomposition）是计算机视觉中的经典问题，旨在将图像或视频分解为反映其物理属性的内在分量，如反照率（albedo，即物体表面的固有颜色）、辐照度（irradiance，即光照条件）和法线（normal，即表面朝向）。传统的内在分解方法通常基于优化或统计学习，在复杂场景下效果有限。近年来，一些工作开始利用扩散模型来改进内在分解的质量，但这些方法通常是针对图像而非视频设计的，且大多只能处理单一方向的分解任务。

在视频抠图（Video Matting）领域，Alpha通道的精确估计对于前景-背景分离至关重要。传统方法如闭式形式抠图和KNN抠图在处理复杂边界时存在困难，而基于深度学习的方法虽然有所改进，但往往需要大量标注数据。如何有效地将视频扩散模型的先验知识迁移到这些精细的视觉任务中，同时保持多模态之间的一致性，是当前研究面临的核心挑战。

三、核心方法详解

3.1 统一框架设计理念

UniVidX的核心思想是构建一个统一的多模态视频生成框架，能够在一个模型内处理多种输入-输出模态组合。与传统方法为每个任务训练独立模型不同，UniVidX将不同的视觉模态（如RGB视频、反照率图、辐照度图、法线图、Alpha通道等）统一到一个共享的扩散模型框架中。该框架的设计理念基于一个关键洞察：视频扩散模型在预训练过程中已经学习到了丰富的多模态视觉先验，通过适当的适配策略，这些先验可以被迁移到各种下游的视觉生成任务中。

UniVidX框架的统一性体现在三个维度：一是模态的统一，即多种视觉模态共享同一个生成模型；二是方向的统一，即同一个模型支持任意模态到任意模态的生成；三是条件的统一，即支持文本条件、模态条件以及两者的混合条件。这种统一设计极大地提高了模型的灵活性和实用性。

3.2 Stochastic Condition Masking (SCM)

随机条件掩码（Stochastic Condition Masking, SCM）是UniVidX实现全方向条件生成的关键技术。在训练过程中，SCM以随机概率将输入的多种模态划分为两组：一组作为干净的条件输入（保持原始数据），另一组作为需要生成的噪声目标（添加噪声）。这种随机划分策略使得模型能够学习到任意模态组合到任意模态组合的映射关系。

具体而言，给定一组多模态输入，SCM为每个模态独立地采样一个掩码值，决定该模态是作为条件还是生成目标。这种设计使得在推理时，用户可以自由地指定哪些模态作为已知条件、哪些模态需要生成，实现了真正的全方向条件生成。例如，用户可以同时提供反照率和法线来生成RGB视频，也可以从RGB视频和文本描述出发生成对应的法线图。这种灵活性是传统固定映射方法无法实现的。

3.3 Decoupled Gated LoRA (DGL)

解耦门控低秩适配（Decoupled Gated LoRA, DGL）是UniVidX为解决多模态适配中的先验保留问题而提出的创新设计。在传统的LoRA微调中，所有适配参数在推理时始终激活，这可能导致预训练模型中学到的通用视觉先验被特定任务的适配参数"覆盖"。DGL通过为每个模态分配独立的LoRA适配器，并引入门控机制来解决这一问题。

DGL的关键设计在于：每个模态的LoRA适配器仅在对应模态作为生成目标时才被激活，而当该模态作为条件输入时，对应的LoRA保持关闭状态。这种解耦设计确保了视频扩散模型预训练的通用先验在非目标模态上得到完整保留，同时允许目标模态通过LoRA进行必要的适配。门控机制的引入使得这种条件性激活可以在推理时灵活控制，无需为不同的生成方向训练不同的模型。

3.4 Cross-Modal Self-Attention (CMSA)

跨模态自注意力（Cross-Modal Self-Attention, CMSA）是UniVidX实现多模态信息交互的核心机制。在标准的Transformer架构中，自注意力层通过查询（query）、键（key）和值（value）三个线性变换来计算注意力权重。CMSA的创新在于跨模态共享键和值的投影权重，同时保持每个模态独立的查询投影。

这种设计的直觉是：不同模态之间需要共享"内容表示"（通过共享的keys/values实现），同时保持各自模态特有的"查询需求"（通过独立的queries实现）。例如，当从反照率生成辐照度时，模型需要理解反照率中的内容信息（共享的keys/values），但辐照度的查询方式应该与反照率不同（独立的queries）。CMSA有效地促进了不同模态之间的信息流动和一致性保持，同时尊重了各模态的特异性。

3.5 两个实例化模型

UniVid-Intrinsic：该实例专注于RGB视频与内在分解图之间的相互生成。它支持四种模态——RGB视频、反照率（albedo）图、辐照度（irradiance）图和法线（normal）图——之间的任意方向转换。这一模型覆盖了逆向渲染（从RGB分解为内在分量）和前向渲染（从内在分量合成RGB）两类任务，为视频的物理理解和编辑提供了强大的工具。

UniVid-Alpha：该实例专注于混合RGB视频与RGBA层的相互生成。它支持混合层（BL）、Alpha遮罩（alpha matte）、前景（FG）和背景（BG）四种模态之间的任意转换。这一模型在视频抠图、前景/背景替换、视频合成等应用场景中具有重要价值，能够实现高质量的视频分层编辑。

3.6 支持的生成范式与任务覆盖

UniVidX支持三种主要的生成范式：纯文本到模态生成（Text→X）、模态到模态生成（X→X）以及文本与模态联合条件生成（Text&X→X）。在这三种范式下，UniVid-Intrinsic和UniVid-Alpha两个实例共覆盖了15个不同的视频生成任务。这种广泛的任务覆盖能力使得UniVidX成为一个真正意义上的通用视频生成框架，用户无需为不同的任务切换不同的模型，极大地简化了应用流程。

3.7 数据效率

UniVidX的一个显著优势是其卓越的数据效率。得益于视频扩散模型预训练的强大先验以及DGL和CMSA的有效适配策略，UniVidX仅需不到1000个训练视频即可实现高质量的多种模态生成。这与传统方法动辄需要数万甚至数十万标注样本形成鲜明对比。这种高数据效率不仅降低了训练成本，还使得在特定领域（如医学影像、工业检测等）的快速适配成为可能，具有广阔的实际应用前景。

四、实验结果分析

4.1 Text→X生成任务评估

在文本到多模态生成任务中，UniVidX展现了令人印象深刻的生成质量。实验结果表明，无论是从文本生成内在分解分量（反照率、辐照度、法线），还是从文本生成RGBA分层视频，UniVidX都能够生成视觉上合理且多模态之间高度一致的结果。定量评估方面，UniVidX在FID、CLIP分数等指标上均优于或可比于专用生成模型。特别值得注意的是，UniVidX生成的多模态结果之间具有良好的物理一致性——例如，生成的反照率和辐照度相乘后能够合理地还原出对应的RGB外观。

4.2 逆向渲染与前向渲染评估

在逆向渲染任务（从RGB视频分解为反照率、辐照度和法线）中，UniVidX在多个基准数据集上达到了最先进的性能。与传统优化方法和基于学习的方法相比，UniVidX不仅在定量指标（如PSNR、SSIM、LPIPS）上表现优异，还在视觉质量上展现出明显优势——生成的内在分量更加清晰、细节更加丰富，且不同分量之间的物理一致性更好。在前向渲染任务（从内在分量合成RGB视频）中，UniVidX同样表现出色，能够生成与真实视频难以区分的高质量结果。

4.3 反照率估计与法线估计

在反照率估计方面，UniVidX能够准确地将光照信息从物体表面颜色中分离出来，生成反映物体固有属性的反照率图。实验表明，UniVidX在处理复杂光照条件（如阴影、高光、环境光遮蔽等）时表现出色，生成的反照率图在不同光照区域保持颜色一致性。在法线估计方面，UniVidX生成的法线图在物体边缘和细节区域表现尤为突出，能够准确捕捉表面的几何结构信息。与专用的法线估计方法相比，UniVidX在保持高精度的同时，还提供了与其他模态的天然一致性保证。

4.4 视频抠图评估

在视频抠图任务中，UniVid-Alpha展现了强大的前景-背景分离能力。实验涵盖了多种具有挑战性的场景，包括精细毛发、半透明物体、运动模糊等。评估结果显示，UniVid-Alpha在Alpha Matte精度、前景/背景重建质量等指标上均达到了竞争性水平。更重要的是，由于UniVidX的统一框架设计，抠图结果与生成的前景和背景之间保持了高度的一致性，这为后续的视频编辑操作提供了可靠的基础。

4.5 消融实验

论文通过系统的消融实验验证了三个关键设计组件的有效性。首先，移除SCM后，模型只能处理固定的输入-输出映射，丧失了全方向生成的能力，验证了SCM在实现灵活条件生成中的核心作用。其次，移除DGL后，模型在非目标模态上的生成质量显著下降，表明DGL在保留VDM预训练先验方面的重要性。第三，移除CMSA后，不同模态之间的一致性明显降低，特别是在需要多模态协同的任务（如前向渲染）中表现尤为明显，证实了CMSA在促进跨模态信息交互中的关键作用。

4.6 下游应用展示

UniVidX的统一框架为多种下游应用提供了可能。论文展示了五个典型的应用场景：（1）视频重光照——通过修改辐照度图并利用前向渲染实现视频光照条件的改变；（2）文本驱动的视频重纹理化——结合文本条件和反照率图修改实现物体表面材质的编辑；（3）材质编辑——直接在反照率空间进行编辑并渲染回RGB空间；（4）视频修复——利用多模态条件信息指导视频内容的修复；（5）背景/前景替换——通过Alpha通道实现视频前景和背景的独立替换。这些应用充分展示了UniVidX作为统一框架的实用价值和广泛适用性。

五、与相关工作的对比

5.1 与专用单模态生成方法的对比

与NormalCrafter、ControlVideo等专用单模态生成方法相比，UniVidX的最大优势在于其统一性。这些专用方法虽然在各自的特定任务上可能达到较高的性能，但每个方法只能处理一种固定的输入-输出映射。当需要处理多种相关任务时，用户需要部署和维护多个独立的模型，不仅增加了系统复杂度，还可能导致不同模型输出之间的不一致性。UniVidX通过单一模型覆盖多种任务，在保持竞争性性能的同时，大大简化了部署流程并保证了跨任务的一致性。

5.2 与串行多模态推理方法的对比

以Ouroboros为代表的串行多模态推理方法通过链式调用多个扩散模型来实现跨模态生成。虽然这种方法可以利用现有模型的生成能力，但串行推理存在误差累积的问题——每一步的生成误差会传递到后续步骤，最终导致多模态结果之间的一致性下降。此外，串行推理的计算开销随链长线性增长，效率较低。UniVidX通过端到端的联合生成避免了误差累积问题，同时由于所有模态共享同一个模型，跨模态一致性得到了天然保证。

5.3 与图像级统一方法的对比

OmniAlpha等方法在图像级别实现了多模态的统一处理，但它们无法直接扩展到视频领域。视频相比图像引入了时间维度的一致性挑战，需要额外的时序建模能力。UniVidX基于视频扩散模型构建，天然地具备处理时空一致性的能力，能够生成时序连贯的多模态视频结果。此外，UniVidX支持的模态类型和生成方向也更加丰富，覆盖了更广泛的应用场景。

5.4 与传统内在分解方法的对比

传统的内在分解方法主要基于物理模型假设和优化策略，在处理复杂真实场景时往往效果有限。近年来，一些基于深度学习的方法通过大规模数据训练提升了内在分解的质量，但这些方法通常是单向的（仅支持RGB到内在分量的分解），且无法利用文本等语义条件进行引导。UniVidX不仅支持双向的内在分解与合成，还能接受文本条件的引导，在灵活性和生成质量上都取得了显著提升。同时，UniVidX将内在分解扩展到视频领域，保持了时序一致性，这是大多数传统方法无法实现的。

六、优缺点分析

6.1 优点

UniVidX具有多方面的显著优势。第一，统一框架覆盖多任务：通过单一模型支持15个不同的视频生成任务，涵盖了内在分解、视频抠图、多模态生成等多个领域，极大地提高了模型的实用性和部署效率。第二，数据效率极高：仅需不到1000个训练视频即可实现高质量的生成，这得益于对视频扩散模型先验的有效利用，大幅降低了训练成本和数据采集门槛。第三，跨模态一致性强：通过CMSA机制和联合训练策略，生成的不同模态结果之间保持高度的物理和视觉一致性，这对于需要多模态协同的应用至关重要。第四，泛化能力强：全方向的条件生成能力使得模型能够处理训练时未见过的模态组合，展现出良好的零样本泛化能力。

6.2 缺点与局限

尽管UniVidX取得了令人瞩目的成果，但仍存在一些局限性和不足。首先，数据偏差和极端情况的处理能力有待提升。由于训练数据规模有限（不到1000个视频），模型在面对分布外的场景或极端光照条件时可能表现不佳。其次，训练数据的多样性受限，可能导致模型在某些特定类型的场景（如室内场景、夜间场景等）上生成质量下降。第三，当前支持的模态覆盖范围仍然有限，主要集中在内在分解和Alpha通道相关的模态，对于深度图、光流图、语义分割图等其他重要模态尚未涉及。此外，模型在处理高分辨率视频时的计算开销较大，实时性有待进一步优化。

七、个人见解和未来展望

7.1 对统一多模态生成范式的思考

UniVidX代表了视频生成领域从"专用模型"向"统一基础模型"演进的重要趋势。这种统一范式的核心价值不仅在于减少了模型数量和部署成本，更在于它改变了我们思考视觉生成问题的方式——从孤立的单一任务视角转向系统性的多模态协同视角。在这种范式下，不同模态不再是独立的生成目标，而是同一个物理世界在不同维度的投影，它们之间的内在关联性成为了提升生成质量的重要约束。我认为，这种统一范式有望成为未来视觉生成研究的主流方向，推动计算机视觉和计算机图形学的深度融合。

7.2 对视频扩散模型先验利用的见解

UniVidX的成功充分证明了视频扩散模型作为视觉基础模型的巨大潜力。DGL的设计尤其值得称道——它巧妙地解决了适配过程中先验保留与任务特化的矛盾。这启示我们，在利用大型预训练模型时，关键不在于简单地微调所有参数，而在于设计精巧的适配策略，使得预训练先验能够在需要时被保留、在需要时被修改。这种"选择性适配"的思路对于其他领域的基础模型应用也具有借鉴意义。同时，SCM的训练策略也提供了一种优雅的解决方案，通过随机化条件-目标的划分，使得单一模型能够隐式地学习到多种映射关系。

7.3 对工业应用前景的分析

从工业应用的角度来看，UniVidX具有广阔的应用前景。在影视后期制作领域，UniVidX可以实现高效的视频分层编辑、重光照和材质修改，大幅提升制作效率。在游戏和虚拟现实领域，UniVidX的多模态生成能力可以用于自动化的资产创建和场景编辑。在视频会议和直播领域，UniVidX的实时背景替换和前景抠图能力具有直接的商用价值。特别值得注意的是，UniVidX的高数据效率使得在垂直领域（如医学影像分析、工业质检等）的定制化应用成为可能，这些领域通常面临标注数据稀缺的挑战。

7.4 未来可能扩展的方向

基于对UniVidX的分析，我认为以下几个方向值得进一步探索。第一，扩展模态覆盖范围：将深度图、光流图、语义分割图、人体姿态等更多模态纳入统一框架，构建更加全面的视频理解与生成系统。第二，提升时序一致性：虽然UniVidX基于视频扩散模型已具备一定的时序建模能力，但在长视频生成中保持多模态的长期一致性仍是一个挑战，可以探索结合时序注意力机制和一致性约束的方法。第三，实时推理优化：通过模型蒸馏、量化等技术提升推理速度，使UniVidX能够满足实时应用的需求。第四，与3D生成结合：将UniVidX的多模态生成能力扩展到3D领域，实现从2D视频到3D场景的重建和生成。第五，交互式编辑：开发基于UniVidX的交互式视频编辑工具，允许用户通过直观的界面进行多模态视频编辑操作。

UniVidX——基于扩散先验的统一多模态视频生成框架