杨立昆主张的 JEPA 和「世界模型」到底是什么？-平芜编程栈

原问题：LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA，有哪些信息值得关注？

大语言模型（LLM）是目前 AI 领域的显学，相比之下，LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJEPA 论文是对 JEPA 的一个改进，考虑到 JEPA 本身了解的人可能并不多，直接解读 LeJEPA 受众会很窄，这篇文章就尝试用一个更科普的视角，梳理一下 JEPA 和 LeJEPA 思想的来龙去脉，并和大家相对熟悉的 LLM 做一些对比。

从 NLP 领域的自监督学习（SSL）说起

所谓自监督学习，核心思想是从数据中获取监督信息，核心是利用数据自身结构或信息来生成伪标签（pseudo-labels），避免了监督学习对人工标注的依赖。

NLP 领域的自监督学习，典型的思路有「预测下一词」（NTP）和「掩码词预测」（MLM）：

GPT（预测下一个词）：可以理解为「文章接龙」，给它我大意了，没有__，它需要预测闪。
BERT（掩码词预测）：可以理解为「完形填空」，给它我 [MASK] 了， [MASK] 闪，它需要预测大意和没有。

共同的思想是：让模型用一部分数据去预测另一部分数据。为了能正确预测，模型「被迫」学会了语法、语义和上下文。

这个范式造就了当前炙手可热的 LLM 领域。

在计算机视觉（CV）领域，科学家们也一直在探索 SSL 的路径。我们来介绍其中的三个主要的分支，以及其思想的来龙去脉。

分支一：对比学习

SimCLR 代表的对比学习 (Contrastive Learning)家族，走了一条和「完形填空」不同的路。它的哲学是：我不需要知道「这是什么」，我只需要知道「这两张图是不是一回事」。

举个例子：

拿一张「猫」的照片（锚点）。
对它进行两次随机 P 图（比如，一次裁剪 + 变色，一次旋转 + 模糊）。这两张 P 过的图，我们叫它正样本，因为它们本质上还是那只猫。
再从数据集中随机拿一堆其他照片（比如狗、车、房子）。这些叫负样本。
训练目标：强迫模型（编码器）在抽象的「特征空间」里，把两个「正样本」的特征向量拉得越近越好，同时把所有「负样本」的特征向量推得越远越好。

这完全是 CV 领域「土生土长」的 SSL 思想。它不依赖「预测」，而是依赖相似性和不变性（Invariance）。模型被迫学会忽略那些 P 图带来的「表面差异」（颜色、角度），去捕捉「猫」这个不变的核心语义。

和 LLM 的核心区别在于：LLM 是在「预测」一个具体的内容（下一个词）。SimCLR 是在「对比」一个抽象的关系（A 和 B 相似，A 和 C 不相似）。

分支二：MAE（掩码自编码器）

MAE 是何恺明的杰作，它代表了生成式/掩码式 (Masked Modeling)学习。它的哲学是：如果你能把这幅图的 75% 都画出来，你一定懂了这幅图。

这是对 NLP 领域中 BERT 思想的致敬。BERT 遮住 15% 的单词去预测，而 MAE 遮住了图像的 75% 去预测，这是因为图像包含信息的冗余度更高。

就好像在做拼图游戏：

把一张图（比如一只狗）切成 100 块小拼图。
随机扔掉 75 块。
只把剩下的 25 块（连同它们的位置信息）交给模型（编码器）。
训练目标：模型必须在像素级别上，把那 75 块被扔掉的拼图一模一样地画（重建）出来。

为了能「凭空」画出狗的耳朵、身体和尾巴，模型必须从那 25% 的碎片中，学到关于「狗」这个物体的「整体概念」和「结构知识」。它被迫学到了高级的语义信息。

分支三：JEPA（联合嵌入预测架构）

这是今天的主角。LeCun 提出的 JEPA。试图融合前两种思想的优点，并摒弃它们的缺点。

SimCLR 的缺点：太依赖「P 图」（数据增强）。我们必须手动告诉模型「旋转和裁剪」是不重要的。但万一很重要呢？它天生更适合做「分类」，而不是理解这个动态的世界。
MAE 的缺点：强迫模型去预测每一个像素（比如狗身上的毛的精确颜色和纹理）是没必要的，而且非常难。人类也不会去记这些细节。

JEPA 的哲学是：我们应该像 MAE 一样做「完形填空」（掩码），但我们不应该预测「像素」（太低级），而应该像 SimCLR 一样，在「抽象特征空间」里进行预测。

同样拿一张图，分成「上下文」（Context，模型能看到的）和「目标」（Target，模型看不到的，被遮挡的）。
关键区别：JEPA 不要求模型去「画出」目标的像素。
训练目标：JEPA 要求模型根据「上下文」的特征，去预测「目标」的「抽象特征」（Representation）。
实现细节：它通过一个「慢速更新」的目标编码器来获得「目标」的真实特征。

总结一下这几种分支：

SimCLR (对比):在 CV 领域开创了「对比相似性」的道路。核心是「不变性」。
MAE (掩码):成功地将 LLM（BERT）的「完形填空」思想搬到 CV。核心是「重建」。
JEPA (预测抽象特征):吸收了：
- MAE 的「掩码 - 预测」框架：认为这比对比学习更通用。
- SimCLR 的「特征空间」思想：认为预测抽象特征比预测像素更高效、更智能。

为什么 LeCun 认为 JEPA 更接近「世界模型」？

JEPA 被 LeCun 认为是通向「世界模型」（World Model）的更优路径，因为它鼓励模型去学习这个世界的抽象规律，而不是去记忆那些无关紧要的像素细节。

对比一下本文提到的这几种范式的主要特点：

方法	预测什么？	保留信息？	学到的结构	世界模型潜力
SimCLR	不预测，只对比	丢信息	不变性	🚫 最弱
MAE	像素	太多细节	纹理、局部结构	⚠️ 弱
LLM	token	语言压缩	语言统计	⚠️ 中（但偏离世界）
JEPA	抽象表征	保留关键变量	世界状态/因果/物体/动态	✅ 强（目标就是世界模型）

JEPA 的潜在问题

所有不使用「负样本」（像 SimCLR 那样）的 SSL 方法，包括 JEPA，都有一个表征坍塌 (Representation Collapse)的问题。

具体来说，模型的目标是「预测」目标块的特征。它可能很快就发现一个完美的作弊方法：我（编码器）不管你给我什么图片（猫、狗、车），我一律输出0（或者任何一个固定的常数）。这样一来，我的上下文特征是0，我要预测的目标特征也是0。预测0去匹配0，我的预测损失（L2 Loss）永远是零，完美！

也就是，所有的输入都被压扁（Collapse）到了空间中的同一个点（一个常数解）。这个模型学到了一个完美的损失，但它什么也没学到，它的表征是完全无用的。

通常，大家（包括 I-JEPA、BYOL、MoCo 等）是怎么「逼」模型不偷懒的呢？他们用的是一系列复杂的、像「炼丹」一样的启发式技巧 (Heuristics)。比如 Teacher-Student 网络 + Stop-Gradient。

打个比方：我们不让模型（学生）自己预测自己，这太容易作弊了。我们复制一个学生的副本，叫教师。学生的任务是预测教师的输出。

Stop-Gradient：我们规定，教师的输出是固定的，梯度不能传回给教师。好比教师给学生划重点，学生不能反过来质疑或改变老师的答案。
EMA 动量更新：教师不是一成不变的，它会非常缓慢地（用「动量」）复制学生的最新参数。好比教师在学生期末考后，才会慢慢更新自己的教学大纲。

这种「非对称」结构打破了「自己预测自己」的循环。学生（编码器）必须不断追赶一个「缓慢变化」且「无法被它直接控制」的目标（教师）。这使得「全部输出 0」这个捷径不再有效。

但这种做法的缺点是：整个训练过程变得非常脆弱。你需要精心调整教师更新的「动量」（比如 0.999 还是 0.9995）、需要 Stop-Gradient 这种奇怪操作、需要复杂的超参数调度。它能用，但我们不知道它为什么能用得这么好，而且缺乏坚实的理论基础。

LeJEPA 的改进

LeCun 团队说：我们受够了这种炼丹式的防守。与其被动地防止坍塌，我们为什么不主动地去定义一个「好」的表征空间应该是什么样子？

关于什么是好的表示空间，LeJEPA 的答案是：为了在未来所有未知的下游任务上都表现最好，这个空间必须是一个各向同性高斯分布 (Isotropic Gaussian)。

我们略去理论证明，简单理解一下「各向同性高斯分布」这个抽象的概念：

表征坍塌 (Collapse)：所有数据都被拍扁在空间的一个点或一个低维平面上。信息丢失了。
各向异性 (Anisotropic)：数据在某些方向上被拉得很长，但在另一些方向上被压得很扁。信息有偏见，它过度放大了某些特征。
各向同性高斯分布 (LeJEPA 的目标)：像个「棉花糖」一样，数据均匀、蓬松地分布在所有方向上，没有偏见，信息量最大。

有了理论目标之后，怎么在训练中「检查」你那几千维的嵌入空间符合我们的预期呢？这就是「维度灾难」问题。

LeJEPA 的方案是，使用 SIGReg 这个工具：我不需要检查整个棉花糖，而是用一个统计工具从上千个随机角度（投影）去切片（Slicing）这个棉花糖。

核心原理是 Cramér-Wold 定理：如果每一个角度切下来的一维切片（1D projection）都看起来像一个标准的一维高斯分布（正态分布），那么整个高维的棉花糖必定是那个「完美的各向同性高斯分布。

SIGReg 的具体步骤：

随机产生 1024 个「切片方向」。
把一批（batch）数据沿着这 1024 个方向「压扁」成 1024 组一维数据。
用一个稳定可微的统计检验（Epps-Pulley）来计算这 1024 组数据有多像正态分布。
这个「不像的程度」就是SIGReg 损失。

现在，LeJEPA 的最终损失函数就变成了：

总结

梳理自监督学习在 NLP 与 CV 的三条主线：NLP 的预测范式（GPT/BERT）、CV 的对比学习（SimCLR）与掩码重建（MAE），指出前者依赖相似性不变性、后者受像素级重建牵制。
JEPA 的核心是沿用掩码 - 预测框架，但把预测目标从像素提升为抽象表征，用上下文表征去预测被遮挡区域的表征，以更贴近世界建模所需的高层变量与动态规律
但无负样本方法容易表征坍塌，常依赖 Teacher-Student、EMA、Stop-Grad 等启发式稳定训练。
LeJEPA 提出以 SIGReg 显式约束表征几何，通过随机投影和正态性检验让嵌入接近各向同性高斯，从而在不丢关键信息的前提下避免坍塌，并与预测损失联合优化。
总体看，JEPA/LeJEPA 试图在「少依赖增强、少卷入像素细节、强调抽象可预测性」的方向上，为通向通用世界模型提供更稳健与高效的自监督路线。