原问题:LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA,有哪些信息值得关注?
大语言模型(LLM)是目前 AI 领域的显学,相比之下,LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJEPA 论文是对 JEPA 的一个改进,考虑到 JEPA 本身了解的人可能并不多,直接解读 LeJEPA 受众会很窄,这篇文章就尝试用一个更科普的视角,梳理一下 JEPA 和 LeJEPA 思想的来龙去脉,并和大家相对熟悉的 LLM 做一些对比。
从 NLP 领域的自监督学习(SSL)说起
所谓自监督学习,核心思想是从数据中获取监督信息,核心是利用数据自身结构或信息来生成伪标签(pseudo-labels),避免了监督学习对人工标注的依赖。
NLP 领域的自监督学习,典型的思路有「预测下一词」(NTP)和「掩码词预测」(MLM):
GPT(预测下一个词):可以理解为「文章接龙」,给它
我大意了,没有__,它需要预测闪。BERT(掩码词预测):可以理解为「完形填空」,给它
我 [MASK] 了, [MASK] 闪,它需要预测大意和没有。
共同的思想是:让模型用一部分数据去预测另一部分数据。为了能正确预测,模型「被迫」学会了语法、语义和上下文。
这个范式造就了当前炙手可热的 LLM 领域。
在计算机视觉(CV)领域,科学家们也一直在探索 SSL 的路径。我们来介绍其中的三个主要的分支,以及其思想的来龙去脉。
分支一:对比学习
SimCLR 代表的对比学习 (Contrastive Learning)家族,走了一条和「完形填空」不同的路。它的哲学是:我不需要知道「这是什么」,我只需要知道「这两张图是不是一回事」。
举个例子:
拿一张「猫」的照片(锚点)。
对它进行两次随机 P 图(比如,一次裁剪 + 变色,一次旋转 + 模糊)。这两张 P 过的图,我们叫它正样本,因为它们本质上还是那只猫。
再从数据集中随机拿一堆其他照片(比如狗、车、房子)。这些叫负样本。
训练目标:强迫模型(编码器)在抽象的「特征空间」里,把两个「正样本」的特征向量拉得越近越好,同时把所有「负样本」的特征向量推得越远越好。
这完全是 CV 领域「土生土长」的 SSL 思想。它不依赖「预测」,而是依赖相似性和不变性(Invariance)。模型被迫学会忽略那些 P 图带来的「表面差异」(颜色、角度),去捕捉「猫」这个不变的核心语义。
和 LLM 的核心区别在于:LLM 是在「预测」一个具体的内容(下一个词)。SimCLR 是在「对比」一个抽象的关系(A 和 B 相似,A 和 C 不相似)。
分支二:MAE(掩码自编码器)
MAE 是何恺明的杰作,它代表了生成式/掩码式 (Masked Modeling)学习。它的哲学是:如果你能把这幅图的 75% 都画出来,你一定懂了这幅图。
这是对 NLP 领域中 BERT 思想的致敬。BERT 遮住 15% 的单词去预测,而 MAE 遮住了图像的 75% 去预测,这是因为图像包含信息的冗余度更高。
就好像在做拼图游戏:
把一张图(比如一只狗)切成 100 块小拼图。
随机扔掉 75 块。
只把剩下的 25 块(连同它们的位置信息)交给模型(编码器)。
训练目标:模型必须在像素级别上,把那 75 块被扔掉的拼图一模一样地画(重建)出来。
为了能「凭空」画出狗的耳朵、身体和尾巴,模型必须从那 25% 的碎片中,学到关于「狗」这个物体的「整体概念」和「结构知识」。它被迫学到了高级的语义信息。
分支三:JEPA(联合嵌入预测架构)
这是今天的主角。LeCun 提出的 JEPA。试图融合前两种思想的优点,并摒弃它们的缺点。
SimCLR 的缺点:太依赖「P 图」(数据增强)。我们必须手动告诉模型「旋转和裁剪」是不重要的。但万一很重要呢?它天生更适合做「分类」,而不是理解这个动态的世界。
MAE 的缺点:强迫模型去预测每一个像素(比如狗身上的毛的精确颜色和纹理)是没必要的,而且非常难。人类也不会去记这些细节。
JEPA 的哲学是:我们应该像 MAE 一样做「完形填空」(掩码),但我们不应该预测「像素」(太低级),而应该像 SimCLR 一样,在「抽象特征空间」里进行预测。
同样拿一张图,分成「上下文」(Context,模型能看到的)和「目标」(Target,模型看不到的,被遮挡的)。
关键区别:JEPA 不要求模型去「画出」目标的像素。
训练目标:JEPA 要求模型根据「上下文」的特征,去预测「目标」的「抽象特征」(Representation)。
实现细节:它通过一个「慢速更新」的目标编码器来获得「目标」的真实特征。
总结一下这几种分支:
SimCLR (对比):在 CV 领域开创了「对比相似性」的道路。核心是「不变性」。
MAE (掩码):成功地将 LLM(BERT)的「完形填空」思想搬到 CV。核心是「重建」。
JEPA (预测抽象特征):吸收了:
MAE 的「掩码 - 预测」框架:认为这比对比学习更通用。
SimCLR 的「特征空间」思想:认为预测抽象特征比预测像素更高效、更智能。
为什么 LeCun 认为 JEPA 更接近「世界模型」?
JEPA 被 LeCun 认为是通向「世界模型」(World Model)的更优路径,因为它鼓励模型去学习这个世界的抽象规律,而不是去记忆那些无关紧要的像素细节。
对比一下本文提到的这几种范式的主要特点:
方法 | 预测什么? | 保留信息? | 学到的结构 | 世界模型潜力 |
|---|---|---|---|---|
| SimCLR | 不预测,只对比 | 丢信息 | 不变性 | 🚫 最弱 |
| MAE | 像素 | 太多细节 | 纹理、局部结构 | ⚠️ 弱 |
| LLM | token | 语言压缩 | 语言统计 | ⚠️ 中(但偏离世界) |
| JEPA | 抽象表征 | 保留关键变量 | 世界状态/因果/物体/动态 | ✅ 强(目标就是世界模型) |
JEPA 的潜在问题
所有不使用「负样本」(像 SimCLR 那样)的 SSL 方法,包括 JEPA,都有一个表征坍塌 (Representation Collapse)的问题。
具体来说,模型的目标是「预测」目标块的特征。它可能很快就发现一个完美的作弊方法:我(编码器)不管你给我什么图片(猫、狗、车),我一律输出0(或者任何一个固定的常数)。这样一来,我的上下文特征是0,我要预测的目标特征也是0。预测0去匹配0,我的预测损失(L2 Loss)永远是零,完美!
也就是,所有的输入都被压扁(Collapse)到了空间中的同一个点(一个常数解)。这个模型学到了一个完美的损失,但它什么也没学到,它的表征是完全无用的。
通常,大家(包括 I-JEPA、BYOL、MoCo 等)是怎么「逼」模型不偷懒的呢?他们用的是一系列复杂的、像「炼丹」一样的启发式技巧 (Heuristics)。比如 Teacher-Student 网络 + Stop-Gradient。
打个比方:我们不让模型(学生)自己预测自己,这太容易作弊了。我们复制一个学生的副本,叫教师。学生的任务是预测教师的输出。
Stop-Gradient:我们规定,教师的输出是固定的,梯度不能传回给教师。好比教师给学生划重点,学生不能反过来质疑或改变老师的答案。
EMA 动量更新:教师不是一成不变的,它会非常缓慢地(用「动量」)复制学生的最新参数。好比教师在学生期末考后,才会慢慢更新自己的教学大纲。
这种「非对称」结构打破了「自己预测自己」的循环。学生(编码器)必须不断追赶一个「缓慢变化」且「无法被它直接控制」的目标(教师)。这使得「全部输出 0」这个捷径不再有效。
但这种做法的缺点是:整个训练过程变得非常脆弱。你需要精心调整教师更新的「动量」(比如 0.999 还是 0.9995)、需要 Stop-Gradient 这种奇怪操作、需要复杂的超参数调度。它能用,但我们不知道它为什么能用得这么好,而且缺乏坚实的理论基础。
LeJEPA 的改进
LeCun 团队说:我们受够了这种炼丹式的防守。与其被动地防止坍塌,我们为什么不主动地去定义一个「好」的表征空间应该是什么样子?
关于什么是好的表示空间,LeJEPA 的答案是:为了在未来所有未知的下游任务上都表现最好,这个空间必须是一个各向同性高斯分布 (Isotropic Gaussian)。
我们略去理论证明,简单理解一下「各向同性高斯分布」这个抽象的概念:
表征坍塌 (Collapse):所有数据都被拍扁在空间的一个点或一个低维平面上。信息丢失了。
各向异性 (Anisotropic):数据在某些方向上被拉得很长,但在另一些方向上被压得很扁。信息有偏见,它过度放大了某些特征。
各向同性高斯分布 (LeJEPA 的目标):像个「棉花糖」一样,数据均匀、蓬松地分布在所有方向上,没有偏见,信息量最大。
有了理论目标之后,怎么在训练中「检查」你那几千维的嵌入空间符合我们的预期呢?这就是「维度灾难」问题。
LeJEPA 的方案是,使用 SIGReg 这个工具:我不需要检查整个棉花糖,而是用一个统计工具从上千个随机角度(投影)去切片(Slicing)这个棉花糖。
核心原理是 Cramér-Wold 定理:如果每一个角度切下来的一维切片(1D projection)都看起来像一个标准的一维高斯分布(正态分布),那么整个高维的棉花糖必定是那个「完美的各向同性高斯分布。
SIGReg 的具体步骤:
随机产生 1024 个「切片方向」。
把一批(batch)数据沿着这 1024 个方向「压扁」成 1024 组一维数据。
用一个稳定可微的统计检验(Epps-Pulley)来计算这 1024 组数据有多像正态分布。
这个「不像的程度」就是SIGReg 损失。
现在,LeJEPA 的最终损失函数就变成了:
总结
梳理自监督学习在 NLP 与 CV 的三条主线:NLP 的预测范式(GPT/BERT)、CV 的对比学习(SimCLR)与掩码重建(MAE),指出前者依赖相似性不变性、后者受像素级重建牵制。
JEPA 的核心是沿用掩码 - 预测框架,但把预测目标从像素提升为抽象表征,用上下文表征去预测被遮挡区域的表征,以更贴近世界建模所需的高层变量与动态规律
但无负样本方法容易表征坍塌,常依赖 Teacher-Student、EMA、Stop-Grad 等启发式稳定训练。
LeJEPA 提出以 SIGReg 显式约束表征几何,通过随机投影和正态性检验让嵌入接近各向同性高斯,从而在不丢关键信息的前提下避免坍塌,并与预测损失联合优化。
总体看,JEPA/LeJEPA 试图在「少依赖增强、少卷入像素细节、强调抽象可预测性」的方向上,为通向通用世界模型提供更稳健与高效的自监督路线。