团队发现,潜空间扩散模型(LDM)的核心组件视觉分词器(例如 VAEs)存在预训练扩展难题。
终于知道 MiniMax 的海螺视频生成为什么那么强了!
他们联合华中科技大学首次开源了其视觉生成的关键技术 VTP (视觉分词器预训练) ,在不修改标准DiT的情况下,通过扩展视觉分词器(Visual Tokenizers),实现了 65.8% 的生成性能提升。
团队发现,潜空间扩散模型(LDM)的核心组件视觉分词器(例如 VAEs)存在预训练扩展难题。
传统的重建驱动型预训练虽然能提升像素级准确性,但会使潜空间(latent space)充斥过多的低级噪声信息,从而损害下游生成任务。
通过引入 VTP 框架,研究者将图像文本对比学习、自监督学习与重建任务联合优化,使潜空间具备更强的语义表征能力。
实验证明语义理解是驱动高质量生成的关键,且这种新范式在计算量、参数量和数据规模上均表现出卓越的扩展性。
视觉分词器重建与生成的取舍难题
LDM 的工作流程通常分为两步,首先利用视觉分词器将高分辨率图像压缩到紧凑的潜空间,随后在潜空间内进行去噪生成。
这种设计极大地降低了计算成本,使大规模图像生成成为可能。
视觉分词器的质量直接决定了生成的上限。
长期以来,学术界和工业界普遍采用基于重建损失的预训练范式,认为只要重构出来的图像越接近原图,生成的质量就会越高。
事实并非如此。
研究人员观察到一个明显的悖论,视觉分词器在训练后期即便重建精度持续提高,其对应的下游生成任务性能却往往停滞不前甚至出现倒退。
这种现象暗示了单纯的像素级匹配无法为生成模型提供理想的潜空间结构。
重建任务由于过度关注像素细节,导致模型在潜空间中编码了大量冗余的低频信息。
对于扩散模型而言,这种缺乏高度抽象语义的潜空间就像是一片混乱的海洋,模型很难在其中学习到有效的生成规律。
随着训练计算量的增加,这种重建与生成的背离现象变得更加严重。
传统的自编码器在投入 10 倍计算量后,生成性能几乎没有任何提升。
这种预训练扩展难题成为了制约生成式模型进一步发展的瓶颈。
如果不能在分词阶段解决语义表征问题,后续无论如何堆砌生成阶段的计算资源,都难以实现质的突破。
为了解决这一痛点,必须重新审视视觉分词器的预训练目标,从简单的像素搬运转向深度语义理解。
VTP 框架的提出正是为了解决这一难题。
该框架不再孤立地看待重建任务,而是将其与 representation learning (表征学习) 深度融合。
研发团队通过联合优化多种损失函数,试图在保留图像细节的同时,为潜空间注入宏观的语义特征。
这种多任务学习的思路旨在建立一个既准确又好用的潜空间,让生成模型在学习过程中能够事半功倍。
驱动生成质量的关键要素
为了让分词器学会看懂图像,VTP 引入了 CLIP (对比图文预训练) 损失函数。
通过图像与文本的跨模态对齐,分词器被强制学习图像中的全局语义概念,如物体的类别、属性以及场景的整体氛围。
这种全局观能够帮助模型忽略掉那些无关紧要的随机像素噪声,聚焦于真正影响图像含义的核心特征。
实验显示,引入 CLIP 后的分词器在 ImageNet (图像净) 上的 zero-shot (零样本) 分类准确率达到了 78.2%。
除了全局语义,局部特征的理解也至关重要。
VTP 整合了 DINOv2 (视觉自监督学习模型) 中的自监督技术,包括 MIM (掩码图像建模) 和 self-distillation (自蒸馏)。
掩码图像建模要求模型根据部分可见的图像块预测缺失部分,这迫使编码器建立起对空间结构的深刻认知。
自蒸馏则通过教师模型和学生模型之间的相互学习,进一步增强了特征的鲁棒性和一致性。这些手段确保了潜空间不仅有语义,还有精细的空间拓扑结构。
像素级的重建任务并未被抛弃,而是作为基础约束继续存在。
研发团队采用了基于 ViT (视觉变换器) 架构的自编码器,相比传统的 CNN (卷积神经网络),ViT 能够更灵活地处理长程依赖关系。
在重建过程中,模型使用 L1 损失和 perceptual loss (感知损失) 来捕捉纹理细节。
为了提高训练稳定性,团队采用了两阶段训练策略,首阶段联合优化所有损失函数,第二阶段则冻结编码器并微调解码器,配合 GAN (生成对抗网络) 损失来提升图像生成的真实感。
研究团队通过大规模消融实验发现,语义理解能力与生成性能之间存在极强的正相关性。
随着线性探测准确率的提升,生成的 gFID (生成弗雷歇起始距离) 呈现出明显的下降趋势。
这有力地证明了语义理解是生成能力的燃料。
那些原本只在分类任务中表现出色的语义特征,实际上在生成任务中也发挥着导航仪的作用,指引着扩散模型在复杂的潜空间中找到正确的生成路径。
预训练性能的持续扩展
扩展定律在语言模型领域大放异彩,但在视觉分词器的预训练中却一直面临失效的困境。
VTP 的核心贡献之一就是找回了这种扩展性。
在数据维度上,团队构建了从 10 万到 1 亿不等的训练子集,发现 VTP 的生成性能随着数据规模的增大而稳步提升。
相比之下,传统的自编码器在 1000 万数据规模后就进入了收益递减阶段。
这种对海量数据的吞噬能力,使得 VTP 能够充分利用 DataComp-1B 等超大规模数据集。
随着模型变大,生成性能的提升路径非常清晰。
这意味着我们可以通过单纯增加硬件资源投入来换取更好的分词效果。
在计算量 FLOPs (每秒浮点运算次数) 的扩展实验中,VTP 展现出了碾压式的优势。
当计算投入增加 10 倍时,VTP 实现了 65.8% 的 FID 改善。
反观仅使用重建任务训练的分词器,即便计算量翻倍,其生成性能也只是在低水平徘徊。
这种性能上的天壤之别,源于 VTP 成功将计算资源转化为了高质量的语义信息,而不仅仅是像素级的重复劳动。
为了平衡不同任务的训练需求,VTP 引入了 batch sampling (批次采样) 优化。
由于 CLIP 训练通常需要超大的 batch size (批次大小) 以提供足够的负样本,而重建任务则倾向于较小的批次以关注局部细节,研发团队设计了一套随机采样机制。
在一个输入 batch (批次) 中,全量数据用于对比学习,而从中随机抽取的子集则用于重建和自监督任务。这种策略在保证训练稳定性的同时,兼顾了多项任务的效率。
语义增强分词器在下游任务展现卓越性能
在与业界标杆的对比中,VTP 展现了全面的竞争优势。
与基于蒸馏的方法如 VA-VAE (视觉对齐变分自编码器) 相比,VTP 不再依赖于外部预训练好的基础模型作为引导,而是直接从头开始学习。
这种原生的多任务预训练方式让模型拥有了更高的上限。
实验数据显示,在 ImageNet 验证集上,VTP 实现了 4.1 倍于领先蒸馏方法的收敛速度,这意味着训练成本的显著降低。
重建效果的对比也令人印象深刻。
可视化结果可以看出,VTP 能够精准地还原复杂的纹理和微小的细节。
在保留颜色准确性方面,它有效避免了同类模型中常见的色彩偏移问题。
无论是复杂的机械结构还是细腻的人脸皮肤,VTP 生成的潜表征都为后续的重建提供了极其丰富且准确的信息来源。这种像素级的忠实度为高保真图像生成奠定了坚实基础。
在生成能力的终极考核中,搭载 VTP 分词器的 DiT (扩散变换器) 表现出了极强的爆发力。
在不修改下游扩散模型任何训练参数的前提下,仅更换分词器就让生成结果在真实感、语义一致性和细节丰富度上有了质的飞跃。
在没有使用 CFG (分类器自由引导) 的情况下,VTP 依然能产生极具视觉冲击力的图像。这种即插即用的优越性,使其在现有的潜空间生成流水线中具有极高的应用价值。
团队还探索了 VTP 在视频生成等更复杂场景下的潜力。
由于潜空间具备了强大的语义结构,模型在处理时序信息时表现得更加从容。
实验发现,语义增强后的潜表征能够更好地捕捉运动物体的一致性,减少了生成过程中的闪烁和变形。
VTP 可能会成为未来全模态视觉生成任务的基础底座。
如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量