news 2026/5/20 12:52:36

LeCun也入局、谢赛宁的RAE扩展到了大规模文生图任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LeCun也入局、谢赛宁的RAE扩展到了大规模文生图任务

25年10月,谢赛宁团队发布了RAE:不再修补VAE,谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束。

RAE利用高维语义空间在文生图任务中实现了比VAE快4倍的收敛速度,并在大规模微调中展现出极强的抗过拟合能力,证明了其作为下一代生成模型基石的潜力。

来自纽约大学,由LeCun、谢赛宁指导的研究团队将RAE扩展到了大规模文生图生成任务中,利用预训练视觉编码器的高维语义特征直接进行生成。

在相同的训练条件下,RAE在收敛速度、生成质量以及训练稳定性上均全面优于目前最先进的VAE模型。

这为构建理解与生成统一的多模态模型开辟了一条更简洁、更高效的新路径。

扩展解码器训练

表示自编码器(RAE)的核心理念在于利用强大的冻结视觉编码器来提取高维特征,并训练一个轻量级的解码器将这些特征还原为图像。

这种方法此前在ImageNet等封闭数据集上表现出色,但能否应对开放世界中复杂多变的文本生成图像任务,一直是未解之谜。

研究团队首先面临的挑战是如何将RAE解码器的能力从特定领域扩展到通用的视觉生成。

他们选用了SigLIP-2作为冻结的表示编码器,并在此基础上展开了大规模的解码器训练实验。

为了适应开放世界的生成需求,训练数据的选择至关重要。

研究人员发现,仅仅依赖ImageNet及其衍生的受控数据集,无法满足处理自然语言描述的复杂场景需求。

他们构建了一个包含约7300万张图像的混合数据集,来源涵盖了从FuseDiT收集的网络图像、由FLUX.1-schnell生成的合成图像,以及专门用于提升文本渲染能力的RenderedText数据集。

实验结果表明,简单地增加数据量并不能线性地提升解码器的性能。

在仅使用ImageNet数据训练时,解码器在自然图像重建上表现尚可,但在处理包含文字或特殊排版的图像时显得力不从心。

当引入网络规模的图像数据后,解码器在YFCC等多样化自然图像测试集上的重建质量有了中等程度的提升,这表明更广泛的数据分布有助于提高模型的泛化能力。

网络数据的杂乱性和非结构化特征,使得模型在精细的文本重建任务上依然举步维艰。

真正的突破来自于数据组合的优化。

研究团队发现,文本重建需要极具针对性的监督信号。当在训练数据中加入合成的文本渲染数据后,解码器对字形细节的还原能力得到了质的飞跃。

这种针对性的数据补充,比单纯盲目地堆砌数据规模更为有效。

图中展示了不同数据训练下的RAE解码器重建效果。

仅在ImageNet上训练的解码器(左二列)在处理自然图像时表现尚可,但在面对包含文字的场景时完全失效。

引入网络和文本数据后(左三列),文本的可读性和图像细节得到了显著修复,整体保真度甚至可以与专有的VAE模型(最右列)相媲美。

这一发现揭示了RAE扩展过程中的一个关键原则:数据组合的质量和针对性远比单一的数据规模重要。

合成数据提供了清晰的结构和风格一致性,而网络数据提供了丰富的语义多样性,两者结合再加上特定的领域数据,才能训练出一个鲁棒的高维解码器。

表格数据进一步佐证了这一点,在包含文本数据的组合上训练的模型,在文本重建指标上取得了压倒性的优势,证明了针对性数据在解决特定领域生成缺陷时的不可替代性。

研究还测试了不同的视觉编码器对重建性能的影响。

除了SigLIP-2,团队还尝试了基于自监督学习的大规模模型WebSSL-DINO。

结果显示,WebSSL-DINO在各项重建指标上甚至优于SigLIP-2,这表明RAE框架并不受限于某一类特定的编码器,具有广泛的适用性。

尽管目前的RAE解码器在绝对数值上仍略逊于经过高度优化的FLUX VAE,但它们已经证明了在保留高维语义特征的同时,能够实现高质量的图像重建,为后续的生成模型训练奠定了坚实的基础。

规模化简化架构

将RAE应用于大规模文生图任务,是对原有设计理念的一次严苛压力测试。

原本针对ImageNet设计的RAE包含了一系列复杂的架构调整和训练技巧,比如加宽的扩散头(DiT-DH)和噪声增强解码。

研究团队在大规模设置下对这些设计进行了逐一验证,发现了一个有趣的现象:随着模型规模的增大,架构反而可以变得更加简单,唯一不可或缺的是适应维度的噪声调度。

噪声调度是扩散模型训练中的核心环节。

RAE处理的是高维潜在空间,其维度远超传统VAE的低维空间。

研究指出,传统的噪声调度策略在高维空间中会失效,导致训练难以收敛。

RAE提出了一种基于维度的噪声调度偏移策略,根据潜在空间的有效维度来重新缩放扩散的时间步。

实验数据表明,这一策略在文生图任务中同样至关重要。

上表清晰地展示了噪声调度偏移的影响。

在不使用偏移的情况下,模型的GenEval分数仅为23.6,DPG-Bench分数为54.8。

一旦启用了维度依赖的噪声偏移,这两个指标分别飙升至49.6和76.8。

这一巨大的性能鸿沟证明了针对高维空间的数学特性进行噪声调度调整,是RAE训练能够成功的基石。

与噪声调度的不可或缺形成鲜明对比的是,原本被认为必须的架构修改在规模化面前显得多余。

以加宽扩散头(DiT-DH)为例,这一设计原本是为了解决小模型骨干网络宽度不足的问题,通过在末端增加一个宽而浅的层来匹配高维潜在空间的通道数。

在ImageNet实验中,这一设计带来了显著的性能提升。

当扩散Transformer(DiT)的模型参数扩展到20亿(2B)以上时,情况发生了变化。

现代大规模DiT模型的隐藏层维度通常已经超过2048,这本身就大于RAE的潜在空间维度(通常为1152)。

模型本身的容量已经足够大,不再存在所谓的瓶颈。

实验结果证实了这一假设:在0.5B的小模型上,DiT-DH确实带来了显著的增益;但在2.4B及更大的模型上,这种增益迅速饱和并变得微不足道。

图中生动地描绘了这一趋势。

左图显示噪声增强解码在训练初期能带来一定的正则化效果,但随着训练步数的增加,其优势几乎消失殆尽。

右图则展示了DiT-DH的优势随着模型规模的增加而迅速衰减。

在迈向数十亿参数的大模型时代,我们不需要为RAE设计特殊的复杂架构,标准的DiT架构配合正确的噪声调度即可胜任。

这种规模即简化的发现具有深远的意义。

研究人员可以直接复用现有的、经过充分验证的大规模DiT架构,而无需进行繁琐的定制化修改。

这极大地降低了采用RAE架构的门槛,使得社区能够更专注于数据和训练策略本身,而不是陷入架构微调的泥潭。

去除噪声增强解码同样是一个重要的简化。

在小规模实验中,为了弥补训练和推理时的分布差异,往往需要对解码器输入添加扰动。

在大规模文生图训练中,模型在漫长的训练过程中自然学会了鲁棒的流形表示,这种显式的正则化手段变得可有可无。

这一发现进一步精简了训练流程,减少了超参数调整的负担。

卓越的训练效率与统一潜力

在公平的竞技场上,RAE到底能不能打败统治该领域的VAE?

研究团队使用Qwen-2.5 1.5B作为语言模型,分别配合不同规模的DiT骨干网络,在SigLIP-2 RAE和FLUX VAE两种潜在空间上从头开始训练文生图模型。

这是一个严格控制变量的对比实验,唯一的变量就是潜在空间的选择。

在预训练阶段,基于RAE的模型展现出了惊人的收敛速度。

RAE模型在GenEval基准上实现了4.0倍的加速,在DPG-Bench上实现了4.6倍的加速。

更令人印象深刻的是RAE在微调阶段的稳定性。

在高质量数据上进行微调是提升模型最终效果的标准步骤,但往往伴随着过拟合的风险。

VAE模型在这一阶段表现出了脆弱性,仅仅经过64个epoch的微调,其性能就开始大幅下降,损失函数迅速坍缩至接近零,表明模型开始死记硬背训练样本而非学习规律。

RAE模型在微调过程中表现出了极强的韧性。

即使在微调了256个epoch之后,RAE模型的性能依然稳定,没有出现过拟合的迹象。

这种稳定性可能源于RAE潜在空间的高维特性和丰富的语义结构。

不同于被强力压缩的VAE潜在空间,RAE的空间保留了更多的语义信息,这为模型提供了一种隐式的正则化,防止其在微调过程中陷入局部最优解。

除了生成性能的优势,RAE架构还为多模态模型的统一带来了新的可能性。

传统的多模态模型通常采用双塔结构:一个视觉编码器用于理解,一个独立的VAE解码器用于生成。

这两者使用完全不同的潜在空间,导致模型在生成时实际上无法利用其理解能力来指导生成过程。

RAE打破了这一隔阂。

由于生成过程直接发生在视觉编码器的表示空间中,模型生成的高维特征正是它用来看世界的特征。

这种共享的潜在空间使得大语言模型可以直接在潜在空间中对生成结果进行推理和验证,而无需将其解码为像素图像。

图中展示了这种潜在空间测试时扩展的创新应用。

模型生成多个候选的潜在表示,LLM直接在这个抽象空间中评估哪一个最符合文本提示,然后只解码最好的那个。这提高了效率的同时,模型能够真正地理解自己生成的内容。

在视觉理解任务的基准测试中,使用RAE生成的模型并没有因为引入生成任务而牺牲理解能力。

相反,由于共享了强大的冻结编码器,模型在多模态理解和生成任务上实现了双赢。

这种架构的简洁性和功能的一致性,使得RAE成为了构建下一代统一多模态基础模型的理想选择。

RAE代码和模型已经开源,我们有理由期待这一更为简洁、强大的架构将推动生成式AI迈向新的高度。

参考资料:

https://arxiv.org/pdf/2601.16208v1

https://github.com/ZitengWangNYU/Scale-RAE

https://huggingface.co/collections/nyu-visionx/scale-rae

https://rae-dit.github.io/scale-rae/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 20:35:01

【课程设计/毕业设计】基于springboot的毕业生就业系统应届生毕业生就业信息管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/11 2:55:35

2026年AI岗位将增长10倍,这7个方向最适合普通程序员转型

文章分析了2025年AI行业岗位增长趋势(招聘量增加10倍),为普通职场人推荐了7个适合转型的AI岗位:大模型应用工程师、AI产品经理、Prompt工程师、数据工程/数据治理、AI解决方案、AIGC内容岗位和AI技术支持/实施。这些岗位对技术门槛…

作者头像 李华
网站建设 2026/5/15 20:44:06

AI Agent进化之路:从工具到伙伴,从自动化到自主决策

在AI技术狂飙突进的今天,AI Agent(智能体)已成为最受瞩目的技术范式之一。从ChatGPT的“对话助手”到AutoGPT的“任务执行者”,从单一功能工具到复杂场景的“决策中枢”,AI Agent的进化不仅重塑了人机协作模式&#xf…

作者头像 李华
网站建设 2026/5/15 16:38:57

‌TestOps的“测试资产复用”:一个用例,多环境跑

复用不是选择,而是效率的基础设施‌ 在持续交付成为常态的今天,‌“一个测试用例,跨开发、测试、预发、生产多环境自动执行”‌ 已不再是理想,而是高成熟度测试团队的标配。通过参数化配置、环境标签化、基础设施即代码&#xff…

作者头像 李华
网站建设 2026/5/13 8:51:05

‌“测试环境即代码”:ArgoCD如何重塑软件测试的基础设施范式

ArgoCD不是部署工具,而是测试环境的“版本控制系统”‌当测试团队还在手动搭建、复制、修复测试环境时,采用ArgoCD的团队已实现:‌一次提交,全环境同步;一次回滚,全链路复现‌。 ArgoCD通过GitOps模式&…

作者头像 李华