news 2026/2/15 7:12:19

Helix 02技术报告:人形机器人的全身自主操控突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Helix 02技术报告:人形机器人的全身自主操控突破

摘要

本报告对Figure AI最新发布的Helix 02系统进行技术分析。该系统通过统一的全身体感网络,首次实现了人形机器人在完整房间尺度下、长达数分钟的端到端自主操作任务,标志着人形机器人从分离的动作控制向全身协调自主的重大转变。

1. 系统概述与技术突破

Helix 02是Figure公司迄今为止能力最强的人形机器人模型,通过单一的神经控制系统,直接从像素输入控制整个机器人身体,实现了跨越整个房间的灵巧、长时程自主操作。主要技术突破包括:

  • 自主长时程移动操作:系统能够执行长达四分钟的端到端自主任务,如在整个厨房中卸载并重新装载洗碗机。该任务整合了行走、操作和平衡,无重置且无需人工干预,被认为是人形机器人迄今完成的最长时程、最复杂的自主任务。

  • 全传感器接入与全执行器输出:系统将机载的视觉、触觉和本体感觉等所有传感器,通过一个统一的视觉运动神经网络直接连接到每一个执行器。

  • 基于人类数据的拟人全身控制:所有功能由System 0实现,这是一个基于超过1000小时人体运动数据,结合仿真到现实的强化学习训练得到的全身控制器。它用单一的神经先验模型替代了109,504行手动编写的C++代码。

2. 核心架构:“系统2-系统1-系统0”三级协同

Helix 02扩展了原有的“系统1-系统2”架构,新增了一个基础层,形成了三级紧密集成的协同架构。

2.1 系统0 (S0):基于人类数据的全身控制基础模型

  • 功能定位:作为物理实现的“骨干”,负责在1 kHz高频下处理平衡、接触和全身协调。

  • 训练数据:使用了超过1000小时的关节级人体运动重定向数据。

  • 架构:一个包含1000万参数的神经网络,输入为全身关节状态和基础运动,输出1 kHz频率的关节级执行器命令。它通过直接学习再现人类运动,掌握了协调力量、调整姿态和在广泛行为中保持平衡的能力。

2.2 系统1 (S1):全身视觉运动策略

  • 功能定位:作为“快思考”层,以200 Hz频率将感知(包括所有传感器输入)转化为全身关节目标。

  • 输入与输出:输入包括头部摄像头、手掌摄像头、指尖触觉传感器和全身本体感觉;输出为对机器人全身(腿、躯干、头、手臂、手腕及各手指)的完整关节级控制。

  • 新硬件支持:首次整合了Figure 03机器人搭载的手掌摄像头和嵌入式触觉传感器。手掌摄像头可在物体被头部摄像头遮挡时提供手内视觉反馈;指尖触觉传感器能感知小至3克的力,实现接触感知和力控抓取。

2.3 系统2 (S2):场景理解与语义推理

  • 功能定位:作为“慢思考”层,负责处理场景、理解语言,并为S1产生潜在目标(语义潜变量)。

  • 能力升级:现在可以规划更长、更复杂的语义指令序列(例如:“走向洗碗机并打开它”→“把碗拿到台面上”→“回到顶层架子拿起杯子”),而无需指定低级动作细节。

3. 关键性能演示

3.1 自主长时程移动操作

在“厨房装卸洗碗机”演示中,Helix 02展现了一系列关键能力:

  1. 约束下的移动:能在手持易碎物品时稳定行走。

  2. 全身工具化使用:在手被占用时,能用臀部关抽屉、用脚抬起洗碗机门。

  3. 持续双手协调:在整个任务中,双手作为协调系统进行物品抓取、交接、堆叠和放置。

  4. 大动态范围控制:同一神经网络能产生毫米级的手指精细运动和房间尺度的移动。

  5. 长时程顺序执行:连续执行了61个移动操作动作,并能进行隐式错误恢复。

3.2 基于触觉与手内视觉的灵巧操作

新传感器模态解锁了四类前沿的灵巧操作任务:

  1. 拧开瓶盖:需要双手协调、触觉调节的握力及扭矩控制。

  2. 从药盒中定位并取出药片:依赖手掌级视觉反馈和触觉引导的精确抓取。

  3. 从注射器中精确推出5毫升液体:需要基于触觉反馈的力控驱动及多指协调稳定。

  4. 从杂乱的盒子中拣选金属件:需要鲁棒的视觉抓取选择,并结合触觉确认在杂乱环境中的稳定接触。

4. 结论与意义

Helix 02代表了人形机器人控制范式的重大进步。通过将全身控制统一到一个端到端学习系统中,它解决了长期以来机器人学中“移动-操作”难以协调的难题。

该系统证明了:

  1. 基于大规模人类运动数据学习的全身控制先验模型(S0)能有效替代传统的手工编码控制器,实现更稳定、自然的运动。

  2. 融合多模态感知(尤其是触觉和手内视觉)与全身控制,能显著提升机器人在非结构化环境中执行复杂、灵巧操作任务的能力。

  3. 分层架构(S2语义规划、S1感知-动作转换、S0高频稳定执行)是实现长时程、可理解、鲁棒自主的有效路径。

尽管成果仍处于早期阶段,但Helix 02为未来通用人形机器人在家庭和职场环境中的实际应用奠定了关键的技术基础。其展现的“像素到全身”的连续自主控制能力,是朝着构建真正实用、可靠人形机器人迈出的重要一步。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 4:52:06

C++与物联网开发

1、非修改序列算法 这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_if find(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。find_if(begin, end, predicate):查找第…

作者头像 李华
网站建设 2026/2/14 23:11:47

Moltbot(Clawdbot)架构与技术全解析:AI助手开发必学指南(建议收藏)

Moltbot是一个个人AI助手系统,采用模块化架构,通过本地优先的Gateway控制平面管理多渠道通信和智能体会话。系统支持13消息平台,具备语音唤醒、实时画布、工具系统等高级功能。基于TypeScript和Node.js构建,使用Pi Agent作为智能体…

作者头像 李华
网站建设 2026/2/6 19:31:01

大模型入门必学:部署与训练的区别及推理引擎的桥梁作用

大模型部署与训练有本质区别,前者注重高性能、低延迟和稳定性,后者注重灵活性和迭代速度。推理引擎作为"中间人",将模型从"实验状态"转化为"生产状态",优化运行环境并提升并发能力。部署方式可分为…

作者头像 李华
网站建设 2026/2/12 2:44:09

C++编译期类型生成

1、非修改序列算法这些算法不会改变它们所操作的容器中的元素。1.1 find 和 find_iffind(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。find_if(begin, end, predicate):查找第一个满…

作者头像 李华
网站建设 2026/2/7 23:40:37

`tredomb`:一个面向「思想临界质量」初始化的 Python 工具

⚛️ tredomb:一个面向「思想临界质量」初始化的 Python 工具 —— 当你的项目需要一份 能引发链式反思的默认结构 标签:#Python工具 #认知工程 #离线知识包 #隐喻式开发实践 🌌 一、命名溯源:一个关于“当量”的隐喻 在核物理中…

作者头像 李华
网站建设 2026/2/11 14:50:09

【游戏推荐】NBA 2K 欢乐竞技场2 (NBA 2K Playgrounds 2)免安装中文版

类型: 体育, 篮球, 街机 链接:https://pan.quark.cn/s/9ac9a509af43 游戏简介 《NBA2K欢乐竞技场2》当然少不了爽快无比的 NBA 街机体验!本作不但延续了一代的激情火爆,更是将街头篮球体验提升到全新境界!数百位现役…

作者头像 李华