英伟达机器人掌门人Jim Fan年度复盘：Vibe Coding火出圈，机器人领域却依然焦头烂额-平芜编程栈

英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan泼了一盆冷水，jim fan 认为机器人领域还处于混乱状态，就连发展方向都有可能是错的。

AK这两天发了一篇推文，引爆了媒体，因为Vibe Coding真的太厉害了，厉害到连AK都焦虑了，AK认为过去一个月没有跟上节奏的人已经对软件行业的认知out了。

与此同时，2025年的机器人领域发展可能是另一番景象，英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan泼了一盆冷水，jim fan 认为机器人领域还处于混乱状态，就连发展方向都有可能是错的。

Jim Fan刚刚分享了他对机器人领域现状的焦虑，这是他在2025年学到的3个教训。

1. 硬件虽领先软件，但可靠性严重拖累迭代速度

我们已经见证了精湛的工程艺术，比如Optimus、e-Atlas、Figure、Neo、G1等等。

现状是，身体的能力超过了大脑的指挥能力，我们要用到最好的AI，并没有榨干这些前沿硬件的全部汁水。

然而，照看这些机器人需要整整一个运营团队。

不像人类，机器人没法从瘀伤中自愈。过热、电机损坏、离奇的固件问题每天都在困扰着我们。错误是不可逆的，也是不可原谅的。

Jim Fan感叹：唯一能随着规模增长的，只有我的耐心。

2. Benchmark在机器人领域仍是一场灾难

LLM圈的普通人以为MMLU和SWE-Bench是常识。但在机器人领域？先别急。

在这里，没有人对任何事情达成一致：无论是硬件平台、任务定义、评分标准、模拟器，还是现实世界的设置。

每个人都在针对每个新闻发布临时定义的基准测试上，宣称自己是SOTA（当前最佳）。每个人都从100次重试中，挑樱桃般选出看起来最漂亮的那一次演示。

Jim Fan呼吁：2026年我们必须做得更好，停止将可复现性和科学纪律视为二等公民。

3. 基于VLM的VLA路线「感觉不对」

VLA（视觉-语言-动作）模型一直是机器人大脑的主流方法。配方很简单：拿一个预训练的VLM（视觉语言模型）检查点，在上面嫁接一个动作模块。

但仔细想想，VLM是为“视觉问答”这类Benchmark高度优化的。

这意味着两个问题：

1.VLM中的大多数参数是为语言和知识服务的，而不是为物理学服务的；2.视觉编码器为了高层理解（Q&A），会主动调整以丢弃低级细节。

但微小的细节对灵巧性至关重要。

Jim Fan认为，没有理由相信VLA的性能会随着VLM参数的增加而扩展。预训练是错位的。

相比之下，视觉世界模型（Video World Model）似乎是机器人策略更好的预训练目标。Jim Fan表示正在押注于此。

质疑与回应

针对Jim Fan的观点，网友Stewart Alsop提出了尖锐的质疑：

如果视频世界模型是更好的预训练目标，为什么Helix、GR00T N1和π0这些真正交付结果的模型，依然构建在VLM骨干之上？

世界模型的方法目前大多只用于策略评估和合成数据，而非直接的运动控制。

另外，既然硬件瓶颈限制了迭代速度，这难道不适用于任何预训练路线吗？直到我们解决机器人数据缺口之前。

Jim Fan：

它们是2025年的模型，期待2026年的下一个大模型。

我个人认为2026年还是要看谷歌，DeepMind还在憋大招，8月份时已经展示过Genie 3这个强大的世界模型了，Genie 4有可能真正让机器人拥有在现实世界连续执行任务的大脑。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

英伟达机器人掌门人Jim Fan年度复盘：Vibe Coding火出圈，机器人领域却依然焦头烂额

1. 硬件虽领先软件，但可靠性严重拖累迭代速度

2. Benchmark在机器人领域仍是一场灾难

3. 基于VLM的VLA路线「感觉不对」

GitHub热门PyTorch项目推荐：基于PyTorch-CUDA-v2.7镜像快速部署

PyTorch模型推理加速方案：使用TensorRT集成CUDA优化

专科生必看！8个AI论文软件推荐，轻松搞定毕业论文格式规范！

DiskInfo下载官网替代方案：监控GPU存储状态以优化PyTorch训练

清华镜像源加速PyTorch安装：高效配置GPU训练环境技巧

CNN手写数字识别实战：基于PyTorch-CUDA-v2.7快速上手