2026 年物理 AI 元年：资本汹涌、路线未定，Om AI 联汇另辟蹊径能否破局？-平芜编程栈

物理 AI 元年已至

过去几年，AI 的战场在屏幕里。GPT 系列用参数堆出了惊人的语言能力，Sora 用视频生成震撼了全世界……然而 2026 年，产业界达成共识：这一年，是物理 AI 的元年。

年初拉斯维加斯 CES 上，英伟达 CEO 黄仁勋用一场演讲，17 遍提及物理 AI，宣布“物理 AI 的 ChatGPT 时刻已经来了”，这也是他近两年一直推崇的关键词。在过去 2 年多时间里，物理 AI 在“大脑”（VLA 模型）、“想象引擎”（世界模型）、训练场、本体及商业闭环五个维度取得关键进展，行业已初步具备走出演示环境、向真实场景探索的技术基础。

资本涌动与技术路线分化

2026 年上半年，全球物理 AI 领域的资本流动呈现出惊人的密度和规模。仅一季度，全球物理 AI 融资就超过了 64 亿美元，其中不乏 AMI Labs10.3 亿美元种子轮、World Labs10 亿美元融资，国内千寻智能三月完成四轮 45 亿元融资的案例。

同时，物理 AI 的技术路线也呈现出清晰的产业分化。基础模型层呈现 VLM、VLA 与世界模型三条路径收敛之势。世界模型作为后台数据工厂合成训练数据，VLM 承担长程规划的“慢思考”，VLA 则把指令与感知直接转化为动作。

技术路线似乎已然固化，核心观点基本指向物理 AI 未来的核心技术架构将是“VLA 与世界模型的深度闭环”——VLA 负责“说人话、做决策”，世界模型提供“内嵌物理引擎”，提前模拟动作的物理后果，验证计划可行性。不过，这些方案已经是“物理世界需要什么样的 AI”这一核心问题的最终答案了吗？

物理 AI：开放竞争格局未定

资本汹涌、巨头入局、量产捷报频传，物理 AI 被视为下一个万亿级市场。据 Future Markets 预测，全球物理 AI 市场规模将从 2026 年的约 3830 亿美元增长至 2040 年的 3.26 万亿美元，构成有史以来最大的科技市场扩张之一。Coatue Management 的预计则更为激进，认为物理 AI 市场规模至少可达 6 万亿美元，较数字 AI 高出约 50%。

但是，不同于数字 AI 领域竞争格局已日益明朗，物理 AI 当下的特征可谓是“格局未定”，决定胜负的维度——制造能力、部署数据、监管速度、供应链控制、基础模型智能——分布在不同的竞争者手中。

作为物理 AI 的底层底座，被寄予厚望的世界模型，产业界对其定位也远未形成共识。智源研究院院长王仲远曾指出，当前世界模型主流路线已有四条：以语言为中心路线（如 Gemini3）：能感知多模态数据，通过语言思考并描述下一状态，具备规划决策能力；以像素为中心路线（如 Sora）：适合视频生成，但不懂物理因果；以三维结构为中心路线（如李飞飞 World Labs 的 Marble）：瞄准元宇宙、游戏等数字世界仿真；以视觉表征为中心路线（如 LeCun 的 V - JEPA 系列）：预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

四类路线，各有拥趸，各有短板。而主流的 VLA、世界模型的技术路线中，有观点将 VLA、世界模型放在了对立面，也有一部分企业选择两条技术路线并进并探索融合。有人走“VLA 为主、世界模型为辅”的嵌入路线，有人走“世界模型原生、强化学习驱动”的独立路线，还有人走“类脑算法 + 世界模型”的底层重构路线。

不同技术路线，在产业层面体现得更加尖锐。在“VLA 路线”阵营，英伟达在 GTC 2026 展示了自研 VLA 模型 Alpamayo，同时还有专为人形机器人设计的开源推理视觉语言动作（VLA）模型 Isaac GR00T N1.6；小鹏在 CVPR 2026 推出 X - Foresight，把世界模型直接嵌进 VLA 架构……在“世界模型路线”阵营，吉利汽车集团在 GTC 2026 发布 WAM 世界行为模型；World Labs 持续押注空间智能（以三维结构为中心的世界模型路线）；谷歌 DeepMind 于 2025 年 8 月发布一款通用型世界模型 Genie 3……在“VLA + 世界模型融合路线”阵营，也不乏热门企业，智元机器人、宇树科技、特斯拉 Optimus 等，其中，宇树科技更是表示将同时保持对 VLA 技术路线的持续跟进与对标，并探索“世界建模”能力与 VLA 架构的合理化融入方式。

当前物理 AI 尚无固定实现范式，或许将是最生动的写照。只是在基础模型层技术路线的选择上，似乎 VLM、VLA 与世界模型三条路径已经开始呈现收敛之势。

VLA 与世界模型融合成主流

事实上，VLA 模型突破了过去将视觉、语言、动作视为独立领域的局限，主流 VLA 模型成功率已趋于稳定，任务执行能力快速提升。而世界模型本质是对环境动态的预测性表征，可为 VLA 注入想象力，提供内嵌物理引擎，让 AI 能够提前模拟动作后果、验证计划可行性。

而纯反应式 VLA 仅能根据当前观测映射动作，缺乏对未来的推理能力，长时程规划易翻车，世界模型是破局的核心。这也使得 VLA 与世界模型的融合成为主流之势。但值得思考的是，面向物理 AI 的模型，到底应该是什么样子？

答案或许既不在技术路线，也不在发布会的演示视频里，而在真实场景的需求中。它的核心评价标准，从来不是“生成的世界够不够逼真”，而是“能不能帮机器更好地在物理世界里行动”，能不能降低试错成本、能不能提升泛化能力、能不能嵌入真实的业务闭环……

物理 AI 缺的是看懂物理世界

当行业热衷于讨论 VLA 与世界模型的路线之争时，一个更根本的问题被忽略了——对于绝大多数物理终端设备而言，真正缺失的不是“灵巧的操作”或是“对未来的预测”，而是“对空间的基本理解”。

曾有机器人在厨房“翻车”的视频在社交平台引发热议。视频中，一台人形机器人不仅打翻沙拉碗、酱汁飞溅，甚至失控摔倒在地。然而这并非孤例，从会空翻、能跳舞的炫技表演，到连叠衣服、收拾桌子都做不好的真实表现，“翻车”正在从个别现象变成行业普遍困境。

现象背后的逻辑很简单，舞台上的流畅动作，都是预设编排、反复调试的结果，环境绝对可控；而家庭场景充满随机变数，杂物摆放、突发动静等不确定因素，都是机器人的技术难题。其根源，在于 AI 对物理空间的理解力远远跟不上硬件的能力。

物理 AI 并非与绝大多数人第一反应的人形机器人、自动驾驶等单一细分赛道，而是能够全方位渗透物理世界的庞大产业生态，应用领域宽广，涵盖自主机器人、自动驾驶车辆、人机系统、工业自动化、可穿戴设备以及支持 AI 的医疗和农业系统。这里面还包含摄像头、无人机、机器狗、巡检设备、工业终端、AI 眼镜等大量具备视觉能力的终端。

这一现状已引发全球 AI 巨头关注，如 Meta 发布的 Segment Anything Model 3、Google 发布的 Gemma 4 和 Vision Banana、英伟达 Jim Fan 提出的 Vision - FIrst 模型，这些模型虽然技术路线不同，但都指向一个共同的愿景：构建真正的通用视觉能力。

实际上，对于固定环境、固定坐标、标准化指令，只要求上万次重复动作零偏差的工业场景而言，传统物理 AI 已足以应付，但无规则杂物、随机指令、上万次场景各不相同的场景而言，真正缺少的不是灵巧手，而是持续感知、空间理解、精准定位和自主导航能力。

比如，机器狗不需要灵巧手，它需要的是在开放空间中自主导航；无人机同样不需要“手”，它需要的是在无 GPS 环境下持续视觉定位；AI 眼镜不需要抓取物体，它需要的是精准的空间定位和实时环境理解；工业巡检终端不需要仿人形态，它需要的是在复杂环境中稳定感知和自主决策……

当前主流的 VLA（视觉－语言－动作模型）和世界模型技术路线，恰恰在“空间理解”这个维度上存在共同的盲区。VLA 把 VLM 当主干，动作仅作为“头”附加其后，语言部分吃掉 90%以上算力与数据，动作部分长期欠训练。世界模型试图弥补这一缺陷，通过预测物理世界的下一个状态来建立对物理规律的理解。但目前的瓶颈同样尖锐：高质量数据缺乏，远低于大模型所需规模。

翻车的本质，不是机器人不够“聪明”，而是它还“看不懂”它所在这个连续、复杂且充满不确定性的物理世界。这正是 Om AI 联汇过去五年里走了一条与主流不同的路。它没有追逐当时最热门的“灵巧操作”方向，而是回到了物理 AI 最基础的问题：如何让 AI 先“看懂”物理世界，再谈其他。其于 6 月 27 日—29 日发布的 VLX - Flow、VLX - Seek、VLX - Go 系列模型，从物理 AI 最基础、最通用的视觉能力切入，提出了流式多模态的新思路。

具体而言，VLX - Flow 解决“持续感知”问题，其让 AI 像人一样持续观察，而不是被动等提问。传统视频理解是“截一帧、问一次、答一次”——AI 看视频就像翻连环画，每一页都要重新翻开、重新阅读。Flow 通过 Linear Attention 和双层记忆（视觉缓存 + 文本 carryover），让视频流“像水流一样持续进入模型”，AI 自己一直在看、一直在记。

VLX - Seek 解决“精准定位”问题，让 AI 实现从“大概看到”到“精准锁定”的转变。VLX - Seek 把定位从“坐标生成”改成“区域指代”——前者是让模型“猜坐标”，后者是给模型真实区域让它“选”，为机器人和设备提供毫米级空间锚点。方法不同，结果也天差地别：VLX - Seek 能以更小的数据实现更优的效果。

VLX - Go 解决“行动决策”问题，让 AI 从“会理解”走向“会移动、会跟随、会导航”。它不是输出“往左走”这样的文本建议，而是通过“短时航点预测 + 离线轨迹学习 + 在线 RL 优化”的逻辑，直接输出可执行航点轨迹，让设备自己走过去。

这一范式切换的关键假设是：物理世界的 AI，不应该是“等用户提问才回答”的被动系统，而应该是“一直看、持续记、随时动”的主动系统。前者是数字 AI 的交互逻辑——对话由人类发起；后者是物理 AI 的工作逻辑——环境变化本身就是触发信号。

在这个范式下，视觉信息不是以“截一帧”的方式进入模型，而是以“连续流”的方式持续进入。模型不是“看完再说”，而是“边看边理解、必要时主动行动”。这对应的不是“更好的人机对话体验”，而是“AI 自主工作能力的质变”。

这一转变的意义，或许不在于它让模型“更好”，而在于它让 AI 在物理世界中的存在方式发生了根本变化——从“等用户来问”到“一直在线工作”。

当数以亿计的摄像头、无人机、机器狗、可穿戴设备不再只是“拍摄工具”，而成为持续理解物理环境的“感知终端”，并自主完成感知、定位、决策的全闭环——这个转变的产业价值，可能远大于机器人的惊艳演示。

让物理 AI 走进产业

物理 AI 从来不缺“技术高度”的叙事，但产业化的真正分水岭，在于技术能否在真实约束下创造可量化的业务价值——这决定了它能走多高、走多远。

VLX 系列模型有着许多技术创新，比如以 Linear Attention 替代标准 Attention、双层记忆机制、区域指代范式（Region Token）替代坐标生成、短时航点设计替代长链路规划等。这些技术创新提供了一个观察样本：当一套技术架构从实验室走向真实物理世界时，它到底解决了什么真实问题？

首先看端侧，在工业巡检、应急管理等场景中，网络断连是常态而非例外。一台在厂区飞行的无人机、一个在地铁工地巡逻的机器人……如果每次决策都要等云端回传，任何延迟都意味着“来不及”。端侧让决策在设备本地完成，延迟从秒级压缩到 0.1 秒以内——这不是体验问题，而是业务能否成立的根本问题。端侧推理将决策闭环压缩到设备本地，延迟从秒级降至 0.1 秒以内，在产业实操中，这直接将大量高危、高动态场景从“技术不可行”推进到了“商用可落地”的区间。

其次看原生架构，VLX - Go 的决策路径完全由其应用场景所定义——精准适配更轻量的短时航点，这样可以更快地应对外界环境的变化。0.6B 的参数规模下，它不做“深度推理”，只做“实时响应”。这并非技术妥协，而是对端侧设备“能力边界”的清醒认知——工业级无人机和巡检机器人往往搭载功耗受限的嵌入式芯片，算力顶多支撑数 B 级模型的实时推理。在此约束下，“更快行动”的价值远大于“更深思考”。

更值得关注的是其研发范式的差异化：行业普遍将端侧模型视为“云端模型的压缩版”，通过蒸馏、剪枝向下移植；而 VLX 的逻辑是反向的——先明确端侧硬件的算力天花板，再在边界内做能力最大化的原生架构设计。这种“端侧优先”的研发理念，与边缘计算走向“专用化、轻量化、硬实时”的产业趋势高度同频，也更契合物理 AI 对确定性时延的刚性需求。

这套模式已经在产业上得以验证。其中，机器人侧，云深处、宇树等具身头部企业已完成部署；无人机侧，公安、海事、自然资源、园区、应急、救援等低空场景已经商用落地；安防摄像头侧，已经完成百万级摄像头的商业化服务接入。

当然，目前物理 AI 仍处于起步阶段。不管是更丰富的人－机－环境交互、还是复杂环境的任务执行，都仍是开放问题。但于物理 AI 而言，VLX 带来的最大冲击，并非某几项算法指标的突破，而是一整套关于“智能存在方式”的思辨——在物理世界里，智能的度量衡不再是参数量的堆叠，而是决策时延的长短与算力利用率的极致。

如果 2026 年是物理 AI 的元年，那它注定不会是一场路线清晰的马拉松，而更像一次迷雾中的多路攀岩。有人押注“大脑”的深度推理，有人下注“想象力”的预测能力，也有人如 Om AI 联汇这般，选择了朴素却刚需的切入点——让机器持续看懂眼前的世界，并且可以做出准确的决策。真正值得产业界思考的是：当物理 AI 的终局形态尚是开放问题，我们究竟是在“用技术探索场景”，还是在“用场景重塑技术”？答案不在论文里，也不在演示中，而藏在每一次现场部署后的真实反馈里。