news 2026/4/9 15:19:08

杨立昆主张的 JEPA 和「世界模型」到底是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
杨立昆主张的 JEPA 和「世界模型」到底是什么?


原问题:LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA,有哪些信息值得关注?

大语言模型(LLM)是目前 AI 领域的显学,相比之下,LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJEPA 论文是对 JEPA 的一个改进,考虑到 JEPA 本身了解的人可能并不多,直接解读 LeJEPA 受众会很窄,这篇文章就尝试用一个更科普的视角,梳理一下 JEPA 和 LeJEPA 思想的来龙去脉,并和大家相对熟悉的 LLM 做一些对比。

从 NLP 领域的自监督学习(SSL)说起

所谓自监督学习,核心思想是从数据中获取监督信息,核心是利用数据自身结构或信息来生成伪标签(pseudo-labels),避免了监督学习对人工标注的依赖。

NLP 领域的自监督学习,典型的思路有「预测下一词」(NTP)和「掩码词预测」(MLM):

  • GPT(预测下一个词):可以理解为「文章接龙」,给它我大意了,没有__,它需要预测

  • BERT(掩码词预测):可以理解为「完形填空」,给它我 [MASK] 了, [MASK] 闪,它需要预测大意没有

共同的思想是:让模型用一部分数据去预测另一部分数据。为了能正确预测,模型「被迫」学会了语法、语义和上下文。

这个范式造就了当前炙手可热的 LLM 领域。

在计算机视觉(CV)领域,科学家们也一直在探索 SSL 的路径。我们来介绍其中的三个主要的分支,以及其思想的来龙去脉。

分支一:对比学习

SimCLR 代表的对比学习 (Contrastive Learning)家族,走了一条和「完形填空」不同的路。它的哲学是:我不需要知道「这是什么」,我只需要知道「这两张图是不是一回事」。

举个例子:

  1. 拿一张「猫」的照片(锚点)。

  2. 对它进行两次随机 P 图(比如,一次裁剪 + 变色,一次旋转 + 模糊)。这两张 P 过的图,我们叫它正样本,因为它们本质上还是那只猫。

  3. 再从数据集中随机拿一堆其他照片(比如狗、车、房子)。这些叫负样本

  4. 训练目标:强迫模型(编码器)在抽象的「特征空间」里,把两个「正样本」的特征向量拉得越近越好,同时把所有「负样本」的特征向量推得越远越好

这完全是 CV 领域「土生土长」的 SSL 思想。它不依赖「预测」,而是依赖相似性不变性(Invariance)。模型被迫学会忽略那些 P 图带来的「表面差异」(颜色、角度),去捕捉「猫」这个不变的核心语义

和 LLM 的核心区别在于:LLM 是在「预测」一个具体的内容(下一个词)。SimCLR 是在「对比」一个抽象的关系(A 和 B 相似,A 和 C 不相似)。

分支二:MAE(掩码自编码器)

MAE 是何恺明的杰作,它代表了生成式/掩码式 (Masked Modeling)学习。它的哲学是:如果你能把这幅图的 75% 都画出来,你一定懂了这幅图。

这是对 NLP 领域中 BERT 思想的致敬。BERT 遮住 15% 的单词去预测,而 MAE 遮住了图像的 75% 去预测,这是因为图像包含信息的冗余度更高。

就好像在做拼图游戏:

  1. 把一张图(比如一只狗)切成 100 块小拼图。

  2. 随机扔掉 75 块。

  3. 只把剩下的 25 块(连同它们的位置信息)交给模型(编码器)。

  4. 训练目标:模型必须在像素级别上,把那 75 块被扔掉的拼图一模一样地画(重建)出来

为了能「凭空」画出狗的耳朵、身体和尾巴,模型必须从那 25% 的碎片中,学到关于「狗」这个物体的「整体概念」和「结构知识」。它被迫学到了高级的语义信息。

分支三:JEPA(联合嵌入预测架构)

这是今天的主角。LeCun 提出的 JEPA。试图融合前两种思想的优点,并摒弃它们的缺点。

  1. SimCLR 的缺点:太依赖「P 图」(数据增强)。我们必须手动告诉模型「旋转和裁剪」是不重要的。但万一很重要呢?它天生更适合做「分类」,而不是理解这个动态的世界。

  2. MAE 的缺点:强迫模型去预测每一个像素(比如狗身上的毛的精确颜色和纹理)是没必要的,而且非常难。人类也不会去记这些细节。

JEPA 的哲学是:我们应该像 MAE 一样做「完形填空」(掩码),但我们不应该预测「像素」(太低级),而应该像 SimCLR 一样,在「抽象特征空间」里进行预测。

  1. 同样拿一张图,分成「上下文」(Context,模型能看到的)和「目标」(Target,模型看不到的,被遮挡的)。

  2. 关键区别:JEPA 不要求模型去「画出」目标的像素

  3. 训练目标:JEPA 要求模型根据「上下文」的特征,去预测「目标」的「抽象特征」(Representation)。

  4. 实现细节:它通过一个「慢速更新」的目标编码器来获得「目标」的真实特征。

总结一下这几种分支:

  • SimCLR (对比):在 CV 领域开创了「对比相似性」的道路。核心是「不变性」

  • MAE (掩码):成功地将 LLM(BERT)的「完形填空」思想搬到 CV。核心是「重建」

  • JEPA (预测抽象特征):吸收了:

    • MAE 的「掩码 - 预测」框架:认为这比对比学习更通用。

    • SimCLR 的「特征空间」思想:认为预测抽象特征比预测像素更高效、更智能。

为什么 LeCun 认为 JEPA 更接近「世界模型」?

JEPA 被 LeCun 认为是通向「世界模型」(World Model)的更优路径,因为它鼓励模型去学习这个世界的抽象规律,而不是去记忆那些无关紧要的像素细节

对比一下本文提到的这几种范式的主要特点:

方法

预测什么?

保留信息?

学到的结构

世界模型潜力

SimCLR

不预测,只对比

丢信息

不变性

🚫 最弱

MAE

像素

太多细节

纹理、局部结构

⚠️ 弱

LLM

token

语言压缩

语言统计

⚠️ 中(但偏离世界)

JEPA

抽象表征

保留关键变量

世界状态/因果/物体/动态

✅ 强(目标就是世界模型)

JEPA 的潜在问题

所有不使用「负样本」(像 SimCLR 那样)的 SSL 方法,包括 JEPA,都有一个表征坍塌 (Representation Collapse)的问题。

具体来说,模型的目标是「预测」目标块的特征。它可能很快就发现一个完美的作弊方法:我(编码器)不管你给我什么图片(猫、狗、车),我一律输出0(或者任何一个固定的常数)。这样一来,我的上下文特征是0,我要预测的目标特征也是0。预测0去匹配0,我的预测损失(L2 Loss)永远是零,完美!

也就是,所有的输入都被压扁(Collapse)到了空间中的同一个点(一个常数解)。这个模型学到了一个完美的损失,但它什么也没学到,它的表征是完全无用的。

通常,大家(包括 I-JEPA、BYOL、MoCo 等)是怎么「逼」模型不偷懒的呢?他们用的是一系列复杂的、像「炼丹」一样的启发式技巧 (Heuristics)。比如 Teacher-Student 网络 + Stop-Gradient。

打个比方:我们不让模型(学生)自己预测自己,这太容易作弊了。我们复制一个学生的副本,叫教师。学生的任务是预测教师的输出。

  1. Stop-Gradient:我们规定,教师的输出是固定的,梯度不能传回给教师。好比教师给学生划重点,学生不能反过来质疑或改变老师的答案。

  2. EMA 动量更新:教师不是一成不变的,它会非常缓慢地(用「动量」)复制学生的最新参数。好比教师在学生期末考后,才会慢慢更新自己的教学大纲。

这种「非对称」结构打破了「自己预测自己」的循环。学生(编码器)必须不断追赶一个「缓慢变化」且「无法被它直接控制」的目标(教师)。这使得「全部输出 0」这个捷径不再有效。

但这种做法的缺点是:整个训练过程变得非常脆弱。你需要精心调整教师更新的「动量」(比如 0.999 还是 0.9995)、需要 Stop-Gradient 这种奇怪操作、需要复杂的超参数调度。它能用,但我们不知道它为什么能用得这么好,而且缺乏坚实的理论基础。

LeJEPA 的改进

LeCun 团队说:我们受够了这种炼丹式的防守。与其被动地防止坍塌,我们为什么不主动地去定义一个「好」的表征空间应该是什么样子?

关于什么是好的表示空间,LeJEPA 的答案是:为了在未来所有未知的下游任务上都表现最好,这个空间必须是一个各向同性高斯分布 (Isotropic Gaussian)

我们略去理论证明,简单理解一下「各向同性高斯分布」这个抽象的概念:

  • 表征坍塌 (Collapse):所有数据都被拍扁在空间的一个点或一个低维平面上。信息丢失了。

  • 各向异性 (Anisotropic):数据在某些方向上被拉得很长,但在另一些方向上被压得很扁。信息有偏见,它过度放大了某些特征。

  • 各向同性高斯分布 (LeJEPA 的目标):像个「棉花糖」一样,数据均匀、蓬松地分布在所有方向上,没有偏见,信息量最大。

有了理论目标之后,怎么在训练中「检查」你那几千维的嵌入空间符合我们的预期呢?这就是「维度灾难」问题。

LeJEPA 的方案是,使用 SIGReg 这个工具:我不需要检查整个棉花糖,而是用一个统计工具从上千个随机角度(投影)去切片(Slicing)这个棉花糖。

核心原理是 Cramér-Wold 定理:如果每一个角度切下来的一维切片(1D projection)都看起来像一个标准的一维高斯分布(正态分布),那么整个高维的棉花糖必定是那个「完美的各向同性高斯分布。

SIGReg 的具体步骤:

  1. 随机产生 1024 个「切片方向」。

  2. 把一批(batch)数据沿着这 1024 个方向「压扁」成 1024 组一维数据。

  3. 用一个稳定可微的统计检验(Epps-Pulley)来计算这 1024 组数据有多像正态分布。

  4. 这个「不像的程度」就是SIGReg 损失

现在,LeJEPA 的最终损失函数就变成了:

总损失预测损失损失

总结

  • 梳理自监督学习在 NLP 与 CV 的三条主线:NLP 的预测范式(GPT/BERT)、CV 的对比学习(SimCLR)与掩码重建(MAE),指出前者依赖相似性不变性、后者受像素级重建牵制。

  • JEPA 的核心是沿用掩码 - 预测框架,但把预测目标从像素提升为抽象表征,用上下文表征去预测被遮挡区域的表征,以更贴近世界建模所需的高层变量与动态规律

  • 但无负样本方法容易表征坍塌,常依赖 Teacher-Student、EMA、Stop-Grad 等启发式稳定训练。

  • LeJEPA 提出以 SIGReg 显式约束表征几何,通过随机投影和正态性检验让嵌入接近各向同性高斯,从而在不丢关键信息的前提下避免坍塌,并与预测损失联合优化。

  • 总体看,JEPA/LeJEPA 试图在「少依赖增强、少卷入像素细节、强调抽象可预测性」的方向上,为通向通用世界模型提供更稳健与高效的自监督路线。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 16:07:31

45、Linux服务器通过串口控制台进行管理的全面指南

Linux服务器通过串口控制台进行管理的全面指南 1. 调制解调器的选择 在为服务器选择调制解调器时,硬件控制调制解调器虽然价格比Winmodems/软调制解调器贵,但它是更好的选择。如果预算有限,可以考虑在eBay等二手渠道购买。硬件控制调制解调器具有诸多优势: - 无需为驱动…

作者头像 李华
网站建设 2026/4/7 11:22:46

10 个降AI率工具,本科生论文答辩PPT优化推荐

10 个降AI率工具,本科生论文答辩PPT优化推荐 论文答辩前的焦虑:时间与重复率的双重挑战 对于每一位本科生来说,毕业论文不仅是大学生涯的总结,更是对知识掌握程度的一次全面检验。然而,在撰写过程中,许多同…

作者头像 李华
网站建设 2026/4/7 7:35:57

【2024超全攻略】Audacity音频编辑器:从零基础到高手的实战指南

【2024超全攻略】Audacity音频编辑器:从零基础到高手的实战指南 【免费下载链接】audacity Audio Editor 项目地址: https://gitcode.com/GitHub_Trending/au/audacity 你是否曾经因为音频质量不佳而烦恼?是否想要制作专业级的播客却苦于没有合适…

作者头像 李华
网站建设 2026/4/8 14:39:27

11、雾无线接入网络中的动态资源分配技术解析

雾无线接入网络中的动态资源分配技术解析 在当今的无线通信领域,雾无线接入网络(F-RAN)因其能够有效提升系统性能而备受关注。本文将深入探讨F-RAN中的动态资源分配问题,包括集中式成本感知能效优化、基于合作博弈的干扰管理以及基于深度强化学习的资源管理等方面。 集中…

作者头像 李华
网站建设 2026/4/7 15:51:24

10个降AI率工具推荐,专科生必备!

10个降AI率工具推荐,专科生必备! 当AI痕迹暴露在论文中,你是否也感到无从下手? 对于专科生来说,写论文从来不是一件轻松的事。尤其是在开题阶段,面对繁重的文献综述、数据分析和理论框架构建,很…

作者头像 李华
网站建设 2026/4/3 4:09:06

10 个专科生降AIGC工具推荐,文献综述AI优化神器

10 个专科生降AIGC工具推荐,文献综述AI优化神器 论文路上的“重灾区”,你中招了吗? 对于专科生来说,论文写作从来都不是一件轻松的事。尤其是当文献综述的任务接踵而至时,很多人会感到前所未有的压力。面对海量的参考文…

作者头像 李华