具身智能（Embodied AI）：当Agent拥有了物理身体-平芜编程栈

具身智能（Embodied AI）：当Agent拥有了物理身体
- 引言：AI的“身体觉醒”
- 一、定义具身智能：不止是“给AI装个身体”
- - 1.1 具身智能的三个核心要素
  - 1.2 为什么“身体”对智能至关重要？
- 二、技术路线：VLA模型如何成为具身智能的“大脑”
- - 2.1 从VLM到VLA：动作Token化的关键一跃
  - 2.2 PaLM-E：为具身智能而生的多模态大模型
  - 2.3 从50Hz到200Hz：控制精度的持续突破
  - 2.4 VLA模型的训练数据瓶颈
- 三、代表性产品：全球具身智能版图
- - 3.1 特斯拉Optimus：百万产能的工业化雄心
  - 3.2 Figure AI + Helix 02：从“回合制”到“行云流水”
  - 3.3 斯坦福Mobile ALOHA：低成本的开源革命
  - 3.4 波士顿动力Atlas：从“体操明星”到“工业劳工”
  - 3.5 1X NEO：OpenAI加持的“家用机器人先行者”
  - 3.6 产品对比：各家的定位与差异
- 四、产业链与应用场景：具身智能如何落地？
- - 4.1 中国军团：从供应链到整机的全面布局
  - 4.2 制药工业：具身智能的第一个“高价值场景”
  - 4.3 多场景覆盖：从制造到养老
- 五、核心挑战：具身智能的“三座大山”
- - 5.1 数据瓶颈：机器人没有“互联网”
  - 5.2 泛化能力：从“特长生”到“通才”的漫漫长路
  - 5.3 成本与可靠性：2万美元够便宜吗？
- 六、总结：从“能说会道”到“能动手做事”的范式跃迁

具身智能（Embodied AI）：当Agent拥有了物理身体

“屏幕里的AI能帮你查资料，但只有拥有身体的AI才能帮你端杯水、收拾房间、搬运货物。从‘能说会道’到‘能动手做事’，AI正在经历一场从数字世界到物理世界的迁徙。而这场迁徙的代价和意义，远比我们想象的要复杂。”

引言：AI的“身体觉醒”

在前十一篇文章中，我们讨论的Agent始终生活在数字世界里。它们可以搜索信息、写代码、发邮件、做PPT，但始终隔着一层屏幕。你让Agent帮你订一份外卖，它能帮你打开App、选餐、下单，但外卖送到门口时，它没法帮你开门、接过袋子、摆上餐桌。

这不是能力问题，而是存在形态问题。没有物理身体的AI，本质上是一个“被困在屏幕里的智能”——它知道一切，却碰不到任何东西。

具身智能（Embodied AI）的目标，就是打破这层屏幕的壁垒。根据学术界的定义，具身智能是指将人工智能系统嵌入具有物理形态的实体之中，使其能够感知环境、从经验中学习，并在与真实世界的持续交互中形成认知、决策与行动能力。中国信息通信研究院的表述更为简洁：通过赋予AI“身体”，使其能够与物理实践产生交互，并在交互中主动探索世界、认识世界、改变世界。

这个“身体”可以是人形机器人、机械臂、智能驾驶舱，甚至是一台配备了传感器和机械臂的普通计算机。但无论形态如何，其核心思想都来源于具身认知理论（Embodied Cognition）：智能并非仅存在于大脑（模型）中，而是由大脑、身体和环境的持续交互共同产生。

2026年，具身智能正在经历一个历史性时刻。在CES 2026展会上，业界形成共识：如果说此前关注的是机器人的“躯体”（硬件运动能力），那么现在焦点已全面转向为其注入“灵魂”（AI感知、决策与执行能力）。上交大穆尧教授更是断言：2026年是具身智能的“数据规模化元年”——当以视觉-语言-行动（VLA）为代表的大模型持续突破感知与推理边界，模型能力的指数级提升首次与物理世界的复杂性形成正面碰撞。

本文将带你走进具身智能的世界：从技术路线到核心瓶颈，从代表性产品到产业生态，全景呈现AI如何“长出身体”，以及这场进化将如何重塑我们的生产与生活。

一、定义具身智能：不止是“给AI装个身体”

1.1 具身智能的三个核心要素

具身智能并非简单地“把大模型塞进机器人”。它与传统机器人学和纯数字AI有着本质区别：

维度	传统工业机器人	纯数字LLM Agent	具身智能
环境感知	固定传感器，预设场景	通过API/文本感知	多模态传感器实时感知
决策方式	预编程规则	LLM推理	VLA模型端到端决策
行动能力	固定轨迹重复操作	调用数字工具	物理空间灵活操作
适应性	环境变化需重新编程	泛化能力强但限于数字域	可适应非结构化物理环境
学习方式	人工示教/离线编程	提示词工程	模仿学习+强化学习+世界模型

具身智能的独特之处在于三点同时具备：感知、决策、行动，三者形成一个闭环，且这个闭环运行在真实的物理世界中。

1.2 为什么“身体”对智能至关重要？

一个有趣的思想实验：如果让一个从未见过柠檬的AI描述柠檬的酸味，它可以调用训练语料中的文字描述——“酸是一种刺激唾液分泌的味道，柠檬的pH值约为2-3”。但它永远无法真正“知道”酸是什么感觉。

具身认知理论认为，很多高级认知能力（如空间推理、物理直觉、因果关系理解）并不是纯粹抽象思维的产物，而是通过身体与物理世界的长期互动“涌现”出来的。婴儿通过抓握、推拉、抛掷来学习物理规律，而非通过阅读物理教科书。

同样地，具身智能的价值不仅在于“能做事”，更在于通过与物理世界的交互，让AI获得物理常识——比如知道“杯子掉在地上会碎”“水会流动”“布料是柔软的”——这些对人类来说理所当然的知识，对纯数字AI来说却是巨大的认知空白。

二、技术路线：VLA模型如何成为具身智能的“大脑”

2.1 从VLM到VLA：动作Token化的关键一跃

传统机器人的“大脑”是模块化的：视觉模块识别物体 → 规划模块计算路径 → 控制模块执行动作。各模块独立运行，信息传递有损耗，且难以泛化。

2023年7月，Google DeepMind发布了RT-2（Robotics Transformer 2），开创性地提出了视觉-语言-动作模型（VLA，Vision-Language-Action Model）架构。RT-2的核心创新是动作Token化：将连续的机器人动作（如机械臂的6自由度位姿）离散化为256个动作Token，直接融入大语言模型的词汇表中，与文本Token一起被Transformer处理。

这一架构的意义在于：将机器人控制问题统一到了自然语言生成的框架中。对RT-2来说，输出一个“拿起苹果”的动作指令，和输出一个“苹果”这个词，本质上没有区别——都是预测下一个Token。

RT-2的关键训练技巧是联合微调（Co-Fine-Tune）：将机器人动作数据与网络图文数据混合，共同输入模型进行训练。DeepMind的实验证明，仅用机器人数据微调会导致模型“遗忘”从网络数据中学到的抽象视觉概念；而联合微调能让策略同时保留高层语义理解能力和低层动作控制能力，生成泛化能力更强的策略。

2.2 PaLM-E：为具身智能而生的多模态大模型

在RT-2之前，DeepMind于2023年3月发布的PaLM-E（Pathways Language Model with Embodied）是另一个里程碑。PaLM-E是一个5620亿参数的具身多模态大模型，首次将连续传感器数据（如图像、本体感觉、状态估计）直接编码进语言模型的输入空间，使模型能够同时处理视觉、语言和机器人状态信息，支持多步推理和复杂任务规划。

PaLM-E的独特之处在于其端到端的多模态融合：不同于先视觉识别再语言推理的两步走，PaLM-E将图像编码后的特征向量直接作为“Token”插入到文本序列中，让Transformer在一个统一的表示空间中处理所有模态。这种设计使模型能够执行需要跨模态推理的任务——例如“把那个红色的杯子拿给我”，模型需要同时理解颜色、物体类别和空间关系。

2.3 从50Hz到200Hz：控制精度的持续突破

RT-2解决了“理解”问题，但控制精度仍有瓶颈。2024-2025年，新一代VLA模型在控制频率上实现了数量级跃升：

模型/系统	发布时间	核心架构	控制频率	关键特点
RT-2	2023.07	单一VLA模型	~3-5Hz	首次实现VLA架构
π0	2024	VLA+动作专家模型	50Hz	引入动作专家加速
Helix	2025	快慢脑并行架构	200Hz	全身统一控制
Helix 02	2026	单一通用神经网络	200Hz+	端到端像素到动作

从3Hz到200Hz，意味着机器人从“一步一卡”进化到“行云流水”。Helix 02的单一通用神经架构尤其值得关注：它无需拆分控制模块，能直接通过像素输入驱动机器人的全身动作，在厨房中能执行连续4分钟的长线程任务，像人一样用臀部关抽屉。

2.4 VLA模型的训练数据瓶颈

然而，VLA模型面临一个比纯语言模型更严峻的挑战：数据稀缺。GPT-4可以“吃下”整个互联网的文本，但机器人动作数据需要真实的物理交互才能采集。目前全球最大的开源机器人数据集RT-X，覆盖527种技能，来自22种不同的机器人，但规模仍远小于语言语料库。

数据的稀缺带来两个后果：

泛化能力有限：在实验室训练的模型，换一个环境就可能失灵
长尾场景覆盖不足：能处理常见任务，但遇到罕见情况容易出错

这正是2026年被业界称为“数据规模化元年”的原因——各家公司和研究机构正在通过仿真环境、遥操作采集、多机器人协作等多种手段，试图突破这个瓶颈。

三、代表性产品：全球具身智能版图

2026年的具身智能领域，已经从“少数实验室的炫技”进入了“全球竞速的产业化阶段”。以下是几个最具代表性的产品及其定位：

3.1 特斯拉Optimus：百万产能的工业化雄心

特斯拉Optimus是人形机器人领域最受关注的项目。2026年4月，马斯克在财报电话会上宣布：Optimus Gen3将于今夏启动生产，2027年走向大规模量产。弗里蒙特工厂里，Model S/X产线正在被改造为年产百万台机器人的超级基地。

Optimus Gen3的硬件规格令人印象深刻：

22自由度灵巧手、45个全身自由度
亚毫米级操作精度
外观高度拟人，柔性外壳隐藏了所有关节
单机成本约2万美元

然而，马斯克在2025年第四季度财报会议上也承认了一个关键事实：目前并没有任何一台Optimus在特斯拉工厂里真正承担“有用的工作”——它仍处在研发和学习阶段，更多是在为未来版本积累数据。

这揭示了一个重要真相：硬件成熟不等于智能成熟。Optimus的机械躯体已经足够先进，但“大脑”的智能水平仍是制约其走向真正生产力的关键瓶颈。

3.2 Figure AI + Helix 02：从“回合制”到“行云流水”

如果说特斯拉的优势在于规模化制造能力，那么Figure AI的突破在于智能算法。

2026年3月，Figure发布了搭载Helix 02系统的Figure 03机器人演示。它在真实家庭客厅中完成了全自主整理任务——擦拭桌面、收纳玩具、使用工具、在狭窄空间中机动——全程没有任何人工干预，也没有预设脚本。

最令人印象深刻的是它打破了传统机器人的“回合制”操作模式：Figure 03能一边侧身穿过咖啡桌与沙发之间的窄缝，一边继续手中的清洁工作；会灵活地将收纳容器夹在臂下，腾出双手去捡拾地面的玩具；甚至会把毛巾甩到肩上暂时腾手，方便操作喷雾瓶。

Helix 02的核心突破在于单一通用神经架构：不同于传统机器人每增加一个新任务就需要工程师编写专属算法，Helix 02只需输入相关训练数据，就能快速学会新技能。这种“数据驱动”的技术路径，大幅降低了研发成本，为通用人形机器人的规模化落地提供了可行方案。

3.3 斯坦福Mobile ALOHA：低成本的开源革命

与特斯拉和Figure追求“高大上”的路线不同，斯坦福大学的Mobile ALOHA走出了一条低成本、开源化的道路。

Mobile ALOHA是一个基于现成组件搭建的通用机器人系统，成本约3万多美元（相比于动辄数十万美元的同类产品）。它支持远程操控与自主模仿学习两种模式，最惊人的是：仅需约20-50次人类演示，就能学会一项新技能，如烹饪虾、叠被子、使用吸尘器、上下电梯等。

Mobile ALOHA的意义在于降低门槛：它证明了通用操作机器人不需要天价的硬件和专属的研发团队。任何有一定技术基础的研究者都可以搭建自己的ALOHA，开始采集数据、训练模型。这种“开源+低成本”的模式，正在加速具身智能领域的民主化进程。

3.4 波士顿动力Atlas：从“体操明星”到“工业劳工”

波士顿动力的Atlas长期以来以翻跟斗、跳舞、跑酷等高难度动作闻名，但它更像一个“炫技的体操明星”，而非“能干活的生产工具”。

2026年CES上，波士顿动力展示了全新设计的全电动量产版Atlas。它与前代最大的区别在于：放弃液压驱动，改用全电力传动。这一转变的象征意义重大——液压版Atlas虽然运动能力惊人，但维护成本高、漏油风险大、不适合长时间连续工作；全电动版则具备了进入真实工厂生产线持续运行的硬实力。

量产版Atlas展示的能力不再是翻跟斗，而是自主搬运与精密装配。它具备56个自由度与全旋转关节，能举起50公斤货物，首批产能已被现代汽车和Google DeepMind预订一空。

3.5 1X NEO：OpenAI加持的“家用机器人先行者”

在家庭场景，1X Technologies的NEO是第一个明确以“产品交付”而非“技术演示”为目标的家用人形机器人。

NEO高约168厘米，重仅30公斤，却能举起近70公斤的物品，运行噪音仅22分贝。它的售价为2万美元（约14.2万人民币），或采用每月499美元的订阅模式，计划于2026年向美国消费者交付，2027年拓展至欧洲和亚洲市场。

NEO由OpenAI投资并提供技术支持，将直接运行OpenAI定制的大模型，实现任务分解、跨场景泛化、持续学习和适应能力。与专注意工业场景的Optimus和Atlas不同，NEO专注于日常家庭任务——整理衣服、清洁、浇灌植物——它的出现标志着人形机器人领域的竞争从“技术演示”转向“产品交付”。

3.6 产品对比：各家的定位与差异

产品	定位	核心优势	主要挑战	商业化阶段
特斯拉Optimus	工业+家庭通用	制造能力、成本控制	AI智能不足	2026年量产启动
Figure 03 + Helix 02	通用人形机器人	AI算法领先、端到端控制	量产能力待验证	技术演示阶段
波士顿动力Atlas	工业超级劳工	运动控制顶尖	成本较高	2026年首批交付
1X NEO	消费级家用	轻量安全、OpenAI加持	可靠性待验证	2026年美国交付
Mobile ALOHA	科研/开源平台	低成本、可DIY	非产品级	开源社区发展

四、产业链与应用场景：具身智能如何落地？

4.1 中国军团：从供应链到整机的全面布局

在CES 2026上，中国机器人企业以“军团”之势集体亮相，展示了从核心部件到整机制造的完整产业链实力。参展企业包括宇树科技、智元机器人、傅利叶智能、众擎机器人、擎朗智能等，产品覆盖人形机器人、四足机器人、商用服务机器人等多个品类。

2025年全球人形机器人出货约1.8万台，中国厂商占比超过86%，宇树科技、智元机器人两家合计出货占比超50%。中国企业的策略务实而激进：利用成熟的供应链和工程化能力，率先攻克工业巡检、物流配送、智能清洁等有明确付费意愿的“边缘”市场，积累数据、打磨产品、形成现金流，再向更通用的核心领域进军。

4.2 制药工业：具身智能的第一个“高价值场景”

制药工业因其对精准搬运、流程一致性和操作规范性的极高要求，正成为具身智能落地的关键方向。

2025年进博会期间，拜耳医药与北京人形机器人创新中心签署合作协议，共同探索人形机器人及具身智能技术在固体药品制造生产、包装、质量控制、仓储及物流等关键环节的创新应用。这是具身智能与高端制药工业深度融合的标志性事件，意味着具身智能开始进入对可靠性要求最严苛的领域。

4.3 多场景覆盖：从制造到养老

上海市2025年发布的具身智能应用场景规划，覆盖了商业、制造、医疗、民政、文旅等重点领域，涵盖从商品零售到制造产线，从三甲医院到养老社区，从物流中心到产业园区的全场景。

在无人配送、无人环卫、陪护交流、商超药店、医院应用以及制造物流与焊接打磨等细分领域，具身智能正有望率先实现落地。联通数科的实践也表明，通过人形机器人及六轴机械臂的自主学习，可以大幅缩短工序改造时间，提高改造效率，同时降低生产成本。

五、核心挑战：具身智能的“三座大山”

尽管前景令人振奋，但具身智能从实验室走向千家万户，仍面临三大核心挑战：

5.1 数据瓶颈：机器人没有“互联网”

这是最大的瓶颈。GPT-4之所以强大，是因为它可以学习整个互联网的文本。但机器人需要的是物理交互数据——如何打开一个门把手、如何折叠一件衣服、如何在光滑的地面上保持平衡——这些数据目前极度稀缺，采集成本高昂。

虽然有仿真环境可以加速数据生成，但仿真到现实的“迁移鸿沟”（Sim-to-Real Gap）始终存在。在仿真中学到的技能，放到真实世界中可能完全失效。

5.2 泛化能力：从“特长生”到“通才”的漫漫长路

当前最先进的具身智能系统，在特定场景下表现惊艳（如Figure 03在客厅整理），但换一个家庭、换一批物品，表现可能大幅下降。RT-2虽然在泛化能力上取得了突破，但离“在任何环境中完成任何日常任务”的通用性，仍有很长的路要走。

5.3 成本与可靠性：2万美元够便宜吗？

1X NEO的2万美元售价已经比早期的数十万美元大幅下降，但对大多数家庭来说仍是一笔不小的开销。更关键的是可靠性：一个工业机器人停机维修，影响的是一条产线；一个家用机器人卡在楼梯上，影响的是一整个家庭的耐心和信任。

此外，具身智能还面临深刻的法律和伦理挑战：机器人造成的财产损失或人身伤害，责任如何界定？拥有自主行动能力的智能体，是否需要特殊的监管框架？这些问题将随着具身智能的普及而日益紧迫。

六、总结：从“能说会道”到“能动手做事”的范式跃迁

具身智能代表了AI进化史上的一次根本性跃迁：从纯粹的信息处理，到与物理世界的实时交互。

回顾这一路的发展：

2023年：RT-2和PaLM-E开创了VLA架构，证明了“动作也可以被Token化”
2024-2025年：π0和Helix将控制频率从3Hz提升到200Hz，让机器人从“回合制”进化到“行云流水”
2026年：CES标志着具身智能从学术概念迈入产业落地元年，Optimus量产倒计时，NEO开始面向消费者交付

但我们也需要保持清醒：硬件成熟不等于智能成熟。马斯克承认Optimus尚未承担“有用的工作”，Figure 03的演示虽然惊艳但仍是受控场景，Mobile ALOHA成本虽低但距离产品化仍有距离。

具身智能的真正挑战不在于“造一个能动的机器人”，而在于“造一个能理解物理世界、适应陌生环境、安全可靠地与人类共存的机器人”。这不仅是工程问题，更是科学问题。

如果说LLM是AI的“大脑”，Agent是给这颗大脑装上了“手脚”（在数字世界），那么具身智能就是让这颗大脑拥有了真正的物理身体——它能看、能听、能摸、能动，能在真实世界中感知、学习、进化。

这场从“能说会道”到“能动手做事”的跃迁，才刚刚开始。而它的终点，可能是一个AI与人类在物理世界中无缝协作的新时代。

给读者的建议：本文是“Agent进化论”系列的第十二篇，从具身智能的视角扩展了Agent的存在形态——从数字世界走向物理世界。下一篇，我们将回顾早期开源项目对Agent领域的启蒙与塑造——《从AutoGPT到BabyAGI：早期开源项目的启示》。

下一篇预告：《从AutoGPT到BabyAGI：早期开源项目的启示》

具身智能（Embodied AI）：当Agent拥有了物理身体

目录