杨立昆路线的新胜利：VL-JEPA来了，抛弃预测下一个词，不靠生成，照样SOTA-平芜编程栈

人工智能研究中，Yann LeCun（杨立昆）有一个独特且经常引起争议的观点。

他认为仅靠以语言为中心、基于预测下一个词的规模化模型，无法通向真正具备常识、因果理解和规划能力的通用智能；它们缺乏对物理世界的内在表征与世界模型，无法自主学习和可靠推理，因此最多是强大的工具，而不是通往 AGI 的终极路径。

在他的《通往自主机器智能的道路》的重要立场论文中，他提出了实现人工智能的替代框架。

他还提出了一种预测世界模型的新架构: 联合嵌入预测架构 (Joint Embedding Predictive Architecture，JEPA)。

Yann LeCun已经离开了Meta，他的学术成果仍然在Meta发挥余热。

刚刚，Meta FAIR、香港科技大学、索邦大学、纽约大学联合发布了一个基于JEPA的视觉-语言模型VL-JEPA。

VL-JEPA架构彻底抛弃了传统视觉语言模型逐个Token生成的低效模式，转而在抽象的嵌入空间中直接预测语义，以一半的参数量实现了SOTA的性能，并为实时视频理解带来了近3倍的效率提升。

回归语义本质

现在的AI界都是被基于Transformer的自回归模型统治。

给AI看一张图，它就像个絮絮叨叨的解说员，必须一个词接一个词地往外蹦句子。这种方式看似直观，实则在训练和推理上都极其昂贵。

Yann LeCun早已对这种低效模式感到不满。

这篇论文的研究者也认为，智能的核心在于理解和预测，而不在于是否能把每一句话都修饰得文采飞扬。

基于这种理念，他们推出了VL-JEPA的视觉语言模型。

传统模型在训练时不得不关注每一个单词的选择、句式的排列甚至语气的模仿。

这对理解图像内容来说，其实是巨大的浪费。

就像你问一个人“灯关了吗？”，他回答“灯灭了”或者“房间变暗了”在意思上是完全一样的，但在传统的训练中，模型却要为了这两个在字面上完全正交（不重叠）的句子耗费大量算力去拟合。

VL-JEPA换了一种活法。

它不再执着于预测下一个单词是什么，而是直接预测目标文本在数学空间中的“坐标”——也就是连续的语义嵌入（Embeddings）。

在这个高维空间里，“灯灭了”和“房间变暗了”的坐标靠得非常近。模型只需要学会指那个方向，而不需要纠结具体用哪个词来描述。

这种非生成式（Non-generative）的设计，让模型得以剥离掉那些与任务无关的语言表象，专注于最核心的语义信息。

这不仅简化了学习目标，更让模型在参数量减少50%的情况下，依然能打出比肩甚至超越庞大生成式模型的战绩。

架构的精密运转逻辑

VL-JEPA的设计哲学体现在其精简而高效的四个核心组件中。这套架构不需要在那儿猜词，而是通过计算向量的距离来理解世界。

X-Encoder（视觉编码器）负责看。

它接收视频或图像输入，将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异，能把复杂的视频画面浓缩成高密度的信息流。

Y-Encoder（文本编码器）负责听和理解目标。

它将目标文本（比如问题的答案或图片的描述）映射到一个连续的潜在空间中。这个空间就是模型学习的靶场。在这个空间里，语义相近的句子会聚在一起，无关的信息被过滤。这一步至关重要，它决定了模型思考的质量。

Predictor（预测器）是整个架构的大脑。

它接收来自X-Encoder的视觉信息，同时接收一个文本查询（Query，比如“这人在干嘛？”），然后它的任务就是预测出Y-Encoder会生成什么样的嵌入向量。注意，它预测的是一个数学向量，而不是具体的文字。这部分采用的是Llama-3的Transformer层进行初始化，让它天生就具备一定的语言理解底子。

Y-Decoder（文本解码器）是一个轻量级的翻译官。

它在训练阶段完全不参与，只有在人类真的需要看文字结果时，它才会被唤醒，把模型预测出来的数学向量翻译成人类能读懂的句子。

这套系统的训练目标非常纯粹：最小化预测出的嵌入向量和真实文本嵌入向量之间的距离。

为了防止模型偷懒（比如把所有输入都映射成同一个点），团队使用了InfoNCE损失函数。

这种对比学习的方法，一边拉近正确答案的距离，一边把无关的干扰项推远，迫使模型在那个抽象的数学空间里构建出清晰的语义地图。

这种设计让VL-JEPA在处理那些没有标准答案的任务时如鱼得水。

在真实世界里，同一个动作的描述千变万化，传统模型要在离散的词表中寻找唯一解极其痛苦，而VL-JEPA只需要在连续空间里找到那个语义聚类中心即可。

选择性解码艺术

视频理解一直是AI领域的硬骨头，尤其是实时视频流。

以前的模型每一帧都要处理，每一秒都要尝试生成描述，计算量大到无法在可穿戴设备或机器人上实时运行。

VL-JEPA在这里展现了它作为非自回归模型的巨大优势。

由于VL-JEPA输出的是连续的语义嵌入流，它可以像心电图一样实时监测这个信号的变化。

如果画面中的语义没有发生剧烈波动，模型就保持沉默，不做任何繁重的文字解码工作。

只有当监测到的语义方差超过某个阈值——意味着画面中发生了新的事件时，它才唤醒解码器，输出一段文字描述。

这种选择性解码（Selective Decoding）机制，让计算资源得到了极致的优化。

实验数据显示，在保证同等语义捕捉质量（CIDEr分数）的前提下，VL-JEPA的解码操作次数减少了约2.85倍。

对于智能眼镜、家庭机器人这种对延迟和功耗极其敏感的设备来说，这几乎是质的飞跃。

模型可以始终在线观察世界，但只在必要时开口汇报，既省电又敏捷。

相比之下，传统的VLM（视觉语言模型）受限于自回归的生成方式，必须把上一个词算出来才能算下一个词，这不仅延迟高，而且无法在生成过程中动态更新语义。

VL-JEPA的嵌入流则是并行的、连续的，能跟随视频流即时刷新对世界的认知。

在严苛对比下的性能统治力

为了证明这套架构不仅仅是理论上好听，Meta团队进行了一场极其严苛的对比实验。他们构建了一个对照组：一个标准的Token生成式VLM。

这个对照组使用了完全相同的视觉编码器、相同的空间分辨率、相同的帧率、完全一样的训练数据（包括DataComp、YFCC-100M等海量图文对以及HowTo100M视频数据）、一样的Batch Size，甚至训练迭代次数都一模一样。

唯一的区别就在于，一个是在数据空间里预测Token，一个是在潜在空间里预测Embedding。

结果令人信服。在同等算力预算下，VL-JEPA在零样本（Zero-shot）分类和描述任务上，性能曲线爬升得比传统VLM快得多。

在训练了500万个样本后，VL-JEPA的Top-5分类准确率达到了35.3%，而对照组只有27.2%。

这种差距随着训练的进行一直保持着。

更关键的是，VL-JEPA的训练参数只有1.6B（16亿），比许多动辄百亿参数的大模型轻量得多，却干出了更好的活。

在广泛的视频分类和检索基准测试中，VL-JEPA的表现全面超越了CLIP、SigLIP2和Perception Encoder这些赫赫有名的前辈。

特别是在SSv2、EgoExo4D这种强调动作和过程的视频数据集上，VL-JEPA的优势尤为明显。

这说明它不仅仅是看懂了画面里的物体（外观），更看懂了物体在如何运动和交互（动态）。

VL-JEPA不仅仅是一个只会看视频的分类器，经过第二阶段的监督微调（SFT）后，它摇身一变成了一个全能选手。

在视觉问答（VQA）任务上，尽管参数量只有1.6B，VL-JEPA依然与InstructBLIP、Qwen-VL这些大块头打得有来有回。

在GQA（组合视觉推理）、TallyQA（复杂计数）以及POPE（物体幻觉检测）等数据集上，它的表现都接近了SOTA水平。

更令人兴奋的是它在世界预测（World Prediction）任务上的表现。

这个任务要求模型看一张起始图和一张终点图，然后判断中间发生了什么动作。这实际上是在测试模型是否理解物理世界的因果关系。

在这个领域，VL-JEPA不仅击败了同量级的VLM，甚至在准确率上超过了GPT-4o、Claude-3.5和Gemini-2这些顶级的大语言模型。

虽然这些大模型拥有千亿级的参数，但在纯粹的视觉因果推理上，专注于嵌入空间预测的VL-JEPA展现出了更敏锐的物理直觉。

这种能力意味着VL-JEPA非常适合作为具身智能（Embodied AI）的大脑。

机器人需要理解它所处环境的物理规律，预测自己动作的后果，而不需要每一步都停下来写一篇小作文来分析现状。

Meta团队还非常诚实地展示了各种失败的尝试，告诉大家什么行得通，什么行不通。

关于预训练，他们发现如果跳过第一阶段的海量图文预训练，直接上SFT，分类准确率会暴跌21.7%。

这说明地基必须打牢，没有大规模数据的浸泡，模型学不到通用的视觉语言对齐。

关于学习率，Y-Encoder的学习率必须非常小心地调整。

实验表明，给文本编码器设置0.05到0.1倍的学习率乘数是最佳甜点。太快了模型会发散，太慢了学不动。

关于损失函数，InfoNCE展现了统治力。

相比于简单的余弦距离（Cosine）或L1/L2距离，InfoNCE自带的抗坍缩（Anti-collapse）属性对于维持嵌入空间的多样性至关重要。虽然在VQA任务上余弦距离表现稍好，但在分类和检索等通用任务上，InfoNCE是绝对的最优解。

有趣的是，他们还尝试了不同的文本编码器。

虽然默认使用的是EmbeddingGemma-300M，但实验证明更大的编码器确实能带来更好的性能。

特别是那些视觉对齐过的文本编码器（如PE模型），能让分类和检索分数进一步上涨。

这暗示了VL-JEPA架构还有巨大的潜力可挖，只要换上更强的组件，性能天花板还能往上顶。

VL-JEPA标志着视觉语言模型从学会说话向学会思考迈出了坚实的一步。

参考资料：

https://arxiv.org/pdf/2512.10942

https://openreview.net/pdf?id=BZ5a1r-kVsf

杨立昆路线的新胜利：VL-JEPA来了，抛弃预测下一个词，不靠生成，照样SOTA

回归语义本质

架构的精密运转逻辑

选择性解码艺术

在严苛对比下的性能统治力

神仙级AI大模型入门教程(非常详细)，从零基础入门到精通，从看这篇开始

大模型RAG实战｜基于LlamaIndex的大模型应用架构设计（文末附开源项目代码和文档）

【高效开发利器】：Open-AutoGLM + WiFi ADB 配置全解析，省时省力的秘密武器

如何实现跨平台直播聚合？全设备兼容终极指南

Open-AutoGLM部署难题全解析，资深工程师亲授稳定运行秘诀

Open-AutoGLM环境搭建全流程：从准备到上线只需30分钟