字节开源 OmniShow：文本，图片，音频，人体姿态多输入，一键成片-平芜编程栈

一、AI视频生成的“全能选手”来了

在众多视频生成模型中，大多数方法只能处理单一或有限的控制条件——要么只能“看图说话”，要么只能“对嘴型”，要么只能“照着姿势摆”。当我们真正想要同时控制人物的外貌、声音、动作和场景描述时，现有方法往往显得力不从心。

这个痛点在人机交互视频生成（Human-Object Interaction Video Generation，简称HOIVG）领域尤为突出。想象一下，你是一位电商卖家，希望生成一段主播手持产品的展示视频——你需要指定主播的长相（参考图像）、说话的内容（音频）、手部的动作（姿态序列）以及场景描述（文本）。在过去，这意味着你可能需要分别训练多个模型，再手动拼接结果，效果往往差强人意。

而现在，字节跳动联合香港中文大学、莫纳什大学和香港大学提出的OmniShow，正是为解决这一问题而生。作为第一个集文本、参考图像、音频和姿态条件于一体的HOIVG模型，OmniShow以其12.3B参数量的规模和卓越的多模态控制能力，被ICML 2026接收，标志着这一领域迎来了重要的技术突破。

核心亮点：OmniShow是首个“全能型”HOIVG模型，单一框架内支持R2V、RA2V、RP2V和RAP2V四种任务，实现了文本+参考图像、文本+参考图像+音频、文本+参考图像+姿态、以及文本+参考图像+音频+姿态的全谱生成能力。

二、什么是HOIVG？为什么它如此重要？

HOIVG（Human-Object Interaction Video Generation），即人机交互视频生成，是一个旨在根据多种模态条件生成高质量人物与物体交互视频的任务。与普通的人物动画生成不同，HOIVG的核心难点在于“交互”二字——不仅要生成自然的人物动作，还要确保人物与物体之间的交互行为合理、自然、物理可信。例如，一个主播手持口红的视频，不仅需要主播的脸部表情与音频同步，还需要手指精确地握住口红，而不是“穿模”而过。

HOIVG任务涉及四种核心模态条件：文本（Text）描述场景和动作语义，参考图像（Reference Image）提供人物外貌和物体外观，音频（Audio）驱动语音同步和嘴型动画，姿态序列（Pose Sequence）控制身体和手部动作。这四种条件的组合产生了四种不同的任务设置：R2V（参考图像+文本生成视频）、RA2V（参考图像+音频+文本生成视频）、RP2V（参考图像+姿态+文本生成视频）以及RAP2V（参考图像+音频+姿态+文本生成视频）。其中RAP2V是最具挑战性的全条件任务，也是实际应用中最有价值的场景。

这一任务的实用价值不言而喻。在电商领域，它可以自动生成产品展示视频，大幅降低内容创作成本；在短视频制作中，它能快速生成各类互动场景；在互动娱乐和虚拟人物领域，它可以实现音频驱动的虚拟形象、物体替换和视频混音等创新应用。可以说，HOIVG是连接AI视频生成与实际产业应用的关键桥梁。

三、现有方法的困境：各自为战，难以统一

在OmniShow之前，HOIVG领域的研究呈现出明显的“各自为战”局面。以HunyuanCustom、HuMo、VACE、Phantom和AnchorCrafter为代表的现有方法，各自只能支持有限的模态条件组合。例如，HunyuanCustom和Phantom主要聚焦于R2V任务，即只能根据参考图像和文本生成视频，无法处理音频和姿态条件；AnchorCrafter虽然支持姿态控制，但在视频质量和参考一致性上表现较差；HuMo在RA2V任务上有所尝试，但缺乏姿态控制能力。没有任何一个现有方法能够同时支持四种模态条件的全部组合。

这种局限性的根源在于三个核心矛盾。首先是可控性与质量的权衡问题：多模态条件的注入往往会干扰基底视频生成模型的分布，导致生成质量下降。其次是音视频同步的精确性问题：现有方法通常使用全局注意力注入音频特征，这会导致音频与视频帧之间的时间对齐不够精确，出现“嘴型不匹配”的问题。最后是数据稀缺问题：同时包含四种模态条件的高质量训练数据极为稀缺，这使得端到端训练一个统一模型变得非常困难。

换句话说，现有方法面临的是一个“三难”困境：如何在不牺牲视频质量的前提下注入多模态条件？如何实现精确的音视频同步？如何在异构数据集上有效训练统一模型？OmniShow的出现，正是为了精准地解决这三个问题。

四、OmniShow三大核心创新

OmniShow的技术突破并非简单的“拼接”，而是通过三个精心设计的核心模块，从本质上解决了多模态条件融合的核心挑战。这三大创新分别是统一通道条件化（Unified Channel-wise Conditioning）、门控局部上下文注意力（Gated Local-Context Attention）和先解耦后联合训练（Decoupled-Then-Joint Training）。

① 统一通道条件化：让图像和姿态“无缝融入”生成过程

在视频生成中，如何有效地将参考图像和姿态信息注入模型是一个关键问题。传统方法通常使用交叉注意力来融合这些条件，但这种方式容易导致语义细节的丢失，尤其是在多模态条件同时存在时，不同条件之间的干扰会显著降低生成质量。OmniShow提出的统一通道条件化（Unified Channel-wise Conditioning）采用了一种更为精妙的策略。

其核心思想是将参考图像和姿态线索通过通道拼接（Channel-wise Concatenation）的方式直接注入到视频潜空间中。具体来说，它利用伪帧（Pseudo Frame）来增强噪声视频标记，并通过参考重建损失（Reference Reconstruction Loss）进行监督。这意味着模型不仅要学会根据条件生成视频，还要能够从生成的视频中重建出参考图像和姿态信息，这种“双向约束”有效地保留了语义细节。与交叉注意力相比，通道拼接的方式更加紧凑且高效，不会引入额外的注意力计算开销，同时避免了不同条件之间的相互干扰。

从实验结果来看，这种设计在参考一致性上带来了显著提升。在R2V任务中，OmniShow的人脸相似度（FaceSim）达到0.874，与Phantom-14B的0.876基本持平，而NexusScore则以0.389显著领先于所有对手。这表明统一通道条件化不仅保留了人物的外貌特征，还更好地维持了人物与物体之间的交互关系。

② 门控局部上下文注意力：精准实现音视频同步

音视频同步是HOIVG中最具挑战性的技术难题之一。在视频中，每一帧都必须与对应的音频片段精确对齐——嘴型必须与发音同步，表情必须与语调匹配。传统方法通常使用全局注意力注入音频特征，但这种方式存在一个致命缺陷：全局注意力会让每一帧都“看到”整段音频，而不是只关注与当前帧对应的音频片段，这就导致了“嘴型漂移”的问题。

OmniShow提出的门控局部上下文注意力（Gated Local-Context Attention）从两个层面解决了这个问题。首先，它将音频特征与足够的上下文信息相结合，然后通过掩码注意力（Masked Attention）的方式注入这些特征，确保每个视频帧只与其对应的音频片段进行交互，而不会被其他时间步的音频信息干扰。这种“局部”的设计思想是关键的——就像人在说话时，嘴型只与当前发出的音素相关，而不会受到上一句或下一句的影响。

其次，为了稳定早期训练过程，OmniShow引入了自适应门控机制（Adaptive Gating）。在训练初期，音频条件的注入可能会扰乱视频生成的稳定性，门控机制通过动态调整音频条件的注入强度，在训练初期降低其影响，随着训练的推进逐渐增强。这种“渐进式”的策略有效地避免了早期训练中的不稳定性问题。实验结果也验证了这一点：在RA2V任务中，OmniShow的音视频同步度（Sync-C）达到8.612，同步距离（Sync-D）降至7.608，均显著优于HuMo-17B的8.013和8.316。

③ 先解耦后联合训练：巧妙利用异构数据集

数据稀缺是制约HOIVG发展的重要因素。同时包含文本、参考图像、音频和姿态的高质量视频数据极为稀缺，但单独包含部分条件的数据却相对充足。例如，参考图像+文本的视频数据和参考图像+音频的视频数据分别存在，但同时包含所有四种条件的数据却很少。如何充分利用这些异构数据集，是OmniShow需要解决的第三个核心问题。

OmniShow提出的“先解耦后联合”（Decoupled-Then-Joint）训练策略巧妙地解决了这个问题。整个训练过程分为三个阶段：第一阶段，在独立的子任务数据集上分别训练专门的R2V模型和A2V模型，让每个子模型在各自的领域内达到最优性能；第二阶段，通过权重插值（Weight Interpolation）将这两个子模型融合为一个统一的初始化模型；第三阶段，在多模态数据上进行联合微调，使模型学会同时处理多种条件的能力。

这种策略的妙处在于：它避免了从零开始直接训练统一模型时常见的条件冲突问题。通过先让模型在各个子任务上充分学习，再通过权重插值进行“软融合”，最后通过联合微调实现“硬对齐”，这种渐进式的训练策略极大地提高了数据利用效率和模型性能。实验表明，这种训练策略使得OmniShow在所有任务设置上都能保持较高的性能水平，而不会因为多任务融合而显著下降。

五、HOIVG-Bench：首个专用评测基准

一个模型的价值不仅在于它能做什么，还在于如何被客观地评价。然而，在OmniShow之前，HOIVG领域缺乏一个专门且全面的评测基准。现有的视频生成评测主要关注文本到视频的生成质量，而对参考一致性、音视频同步和姿态准确性等多模态特定指标缺乏系统性的评估。这使得不同方法之间的公平比较变得困难。

为了填补这一空白，OmniShow团队提出了HOIVG-Bench——一个专门为HOIVG任务设计的全面评测基准。HOIVG-Bench包含135个精心构建的样本，覆盖了R2V、RA2V、RP2V和RAP2V四种任务设置。它从五个维度全面评估模型性能：文本对齐性（Text Alignment）、参考一致性（Reference Consistency，包括人脸相似度FaceSim和NexusScore）、音视频同步性（Audio-Visual Sync，包括Sync-C和Sync-D）、姿态准确性（Pose Accuracy，包括AKD和PCK）以及视频质量（Video Quality，包括AES、IQA、VQ和MQ）。

值得一提的是，HOIVG-Bench的设计充分考虑了公平性和可比性。所有定量指标和定性分析都基于5秒、720p分辨率的竖版视频片段进行标准化，确保与基线方法的公平比较。这一基准的提出，为整个HOIVG领域的研究提供了统一的评价标准，有望推动该领域的快速发展。

六、实验结果：全面领先的性能表现

OmniShow在HOIVG-Bench上的实验结果令人印象深刻。与包括HunyuanCustom（13B）、HuMo（17B/1.7B）、VACE（14B）、Phantom（14B/1.3B）和AnchorCrafter（1.5B）在内的多个当前最先进方法相比，OmniShow在多个维度上展现出了卓越的性能。

R2V任务关键指标对比

在R2V任务中，OmniShow的NexusScore达到0.389，显著领先于所有对手，表明其在人物与物体交互关系的维护上表现最优。同时，其人脸相似度FaceSim为0.874，与Phantom-14B的0.876基本持平，而视频质量指标AES和MQ均为最优。在RA2V任务中，OmniShow更是展现出了压倒性优势，音视频同步度Sync-C达到8.612，同步距离Sync-D降至7.608，均显著优于HuMo-17B。在RP2V任务中，OmniShow的姿态准确性指标AKD降至0.087，PCK达到0.329，远超AnchorCrafter和VACE。

特别值得注意的是，OmniShow是唯一能够支持RAP2V全条件任务的模型。在这个最具挑战性的设置下，OmniShow仍然能够同时保持较高的参考一致性、音视频同步性和姿态准确性，这充分证明了其多模态融合架构的有效性。此外，人类评估结果也显示，OmniShow在多个维度上获得了更高的主观偏好度，进一步验证了其实际应用价值。

七、更广阔的应用前景

OmniShow的多模态统一能力为其带来了远超学术评测的应用潜力。论文中展示了三个具有代表性的应用场景，充分体现了这种多功能性。

音频驱动虚拟形象：在这个场景中，用户可以提供一张人物参考图像和一段音频，OmniShow就能生成一个嘴型与声音完美同步的虚拟人物视频。这对于虚拟主播、数字人、游戏角色等领域都有巨大的应用价值。与现有的专用虚拟人物模型相比，OmniShow的优势在于它同时支持姿态控制，可以精确地控制虚拟人物的动作和手部行为。

物体替换：在电商场景中，同一个主播可能需要展示不同的产品。OmniShow支持在保持人物外貌和动作不变的前提下，替换视频中的物体。这意味着商家只需要录制一次主播的视频，就可以通过替换参考图像中的物体来生成多个产品的展示视频，大幅降低了内容创作的成本和时间。

视频混音：这是一个更具创意的应用场景。OmniShow可以将一个视频中的人物外貌、另一个视频中的音频内容、以及第三个视频中的动作姿态进行混合，生成一个全新的视频。这种“拆解+重组”的能力为内容创作提供了无限可能，例如将一个主播的外貌与另一个人的说话内容和动作结合，创造出全新的视频内容。

OmniShow的出现，标志着人机交互视频生成领域迎来了一个重要的里程碑。通过统一通道条件化、门控局部上下文注意力和先解耦后联合训练三大核心创新，它成功地在单一框架内统一了文本、参考图像、音频和姿态四种模态条件，实现了从R2V到RAP2V的全谱任务覆盖。同时，HOIVG-Bench的提出为该领域提供了统一的评价标准，有望推动后续研究的规范化发展。

更多transformer，VIT，swin tranformer 参考头条号：人工智能研究所 v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

字节开源 OmniShow：文本，图片，音频，人体姿态多输入，一键成片

一、AI视频生成的“全能选手”来了

二、什么是HOIVG？为什么它如此重要？

三、现有方法的困境：各自为战，难以统一

四、OmniShow三大核心创新

① 统一通道条件化：让图像和姿态“无缝融入”生成过程

② 门控局部上下文注意力：精准实现音视频同步

③ 先解耦后联合训练：巧妙利用异构数据集

五、HOIVG-Bench：首个专用评测基准

六、实验结果：全面领先的性能表现

七、更广阔的应用前景

告别Transformer的平方级计算：手把手教你用PyTorch实现External Attention（EA）模块

VS Code + Cursor + Continue + Warp + LangChain + Ollama —— 这套组合为何让资深工程师日均编码时长缩短2.8小时？

别再瞎试了！用FFmpeg -buildconf 命令读懂编译选项，定制你的专属音视频工具链

解锁FDTD高级玩法：用‘结构组脚本’批量创建参数化锥体阵列

别再一张张切了！用PS参考线+Acrobat Pro，5分钟搞定超长图A4分页打印

1990-2025年各区县撤县设市DID+名单