卡内基梅隆大学：人形机器人实现类人触觉抓握力道感知能力提升-平芜编程栈

这项由卡内基梅隆大学联合德克萨斯大学阿灵顿分校、博世人工智能中心共同完成的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.13015，有兴趣深入了解的读者可通过该编号查询完整原文。

人类在叠毛巾、往书架上放书、端着两杯热茶走路这些事情上几乎不需要动脑，但对于一台人形机器人来说，这些任务背后藏着令人头疼的难题：手指需要感知力道，身体需要保持平衡，眼睛需要判断位置，而这一切还得同时发生、相互配合。研究团队在这项工作中正是瞄准了这个问题，试图让人形机器人真正学会"有感觉"地操作物体。

一个有趣的类比是：驾驶一辆没有方向盘反馈的赛车。你能看到赛道，但感受不到轮胎与地面的摩擦，无法判断是否即将失控。现有的大多数机器人操控系统正处于这种境地——它们可以看，可以动，却缺少那层关键的"手感"。这项研究的核心贡献，就是为机器人装上了这层手感，并用一套名为"触觉梦境"的方法，让机器人通过预测未来的触感来提升当下的操作能力。

一、人形机器人为什么这么难驾驭

在正式介绍这套系统之前，值得先花点时间理解问题的难度。人形机器人与工厂里那种固定在地面上的机械臂完全不同，它需要用两条腿站立和行走，同时用两只手完成精细操作。这就像一个人在独木桥上单脚跳的同时还要穿针引线——任何一个环节的细微失误都可能让整套动作崩溃。

更麻烦的是，操作中的接触状态会频繁变化。插入一个形状吻合度很高的零件时，手指与零件之间的接触力在毫秒级别内就会发生剧烈变化；叠一条毛巾时，软质材料的形变完全无法从视觉中准确预判。这类"接触丰富"的任务对机器人来说尤其困难，因为纯靠摄像头看图像，很难知道此刻手指正承受多少力、物体是否在打滑。

研究团队在论文中提到，当前绝大多数人形机器人研究系统要么有全身控制、要么有灵巧的手、要么有触觉传感，但几乎没有系统把三者同时做到并整合进一个能够实际学习操作任务的平台中。这个空缺，就是这项工作填补的地方。

二、一套完整的"学习操作"流水线

研究团队构建的系统分成四个紧密衔接的部分，就像一条生产线，每个环节的输出都是下一个环节的输入。

第一个环节是训练机器人的下半身控制器。这个控制器负责让机器人站稳、走路、弯腰、蹲下，同时保证上半身在做各种动作时整体不会摔倒。训练过程在计算机模拟环境中完成，采用的方法是先训练一个"老师"策略，这个老师可以获取模拟器里的特权信息（比如脚是否踩地），然后再训练一个"学生"策略，学生只能使用真实机器人上能拿到的传感器数据来模仿老师的行为。这种方式确保训练出来的控制器可以直接部署到真实机器人上，不会因为模拟与现实的差距而失效。

这个下半身控制器能够稳定地执行一系列复杂指令：身体前进后退左右移动的速度、躯干的倾斜角度和高度，甚至支持让机器人蹲下够到地面上的物体，或者在行走过程中保持上半身朝向不同方向。经过系统性测试，该控制器能够在多个方向上维持稳定，高度可控范围从33厘米到80厘米，躯干俯仰角度的可控范围超过两个弧度，这为上半身的灵活操作提供了坚实的支撑基础。

第二个环节是数据采集系统。操作人员佩戴VR头盔，头部、手腕、手指的运动实时映射到机器人身上——头部运动转化为躯干的姿态指令，手腕运动通过逆运动学计算转化为机器人手臂的关节角度，手指的弯曲程度则通过一套叫做DexPilot的方法转化为机器人灵巧手的手指动作，优化的目标是让机器人手指尖之间的距离关系尽量和操作员一致。操作员还通过一个手柄摇杆控制机器人的行走方向和速度。在整个遥控过程中，系统同步记录多路摄像头图像、机器人身体和手部的关节状态、手部每个关节的受力数据，以及来自两只手上分布式触觉传感器的数据。

谈到触觉传感，每只手上的传感器覆盖17个区域，包括拇指、食指、中指、无名指、小指各自的几个节段，以及手掌，每只手提供1062维的触觉观测数据。这些数据记录了手与物体接触时各个位置的压力分布，就像给机器人的手掌铺了一张精密的压力地图。

三、让机器人"幻想"未来触感的核心算法

采集到足够的演示数据之后，研究团队用这些数据训练了一个名为"人形触觉梦境变换器"的策略模型，英文缩写为HTD。这个模型的架构可以用"感官融合加预测"来理解：它同时接收视觉、本体感觉（关节角度和速度）、手指受力和触觉信号，经过一个编码器把这些信息融合成一个统一的内部表达，再通过一个解码器产生机器人接下来要执行的动作序列。

模型的巧妙之处在于它额外做了一件事：除了预测下一步动作，它还被要求预测未来一段时间内手指会承受怎样的力，以及未来的触觉传感器会呈现怎样的激活模式。这就是研究团队称之为"触觉梦境"的机制——机器人在操作过程中，不仅根据当前感知到的状态决定下一步怎么动，还被训练成能够提前"感受"到即将发生的接触是什么样子的。

这种预测并不是在原始传感器数据层面进行的，而是在一个经过学习的"压缩空间"里进行。研究团队发现，直接让模型预测原始触觉数据效果很差，因为触觉信号本身噪声大、稀疏、维度高，直接回归这种信号很容易被噪声主导而学不到有意义的东西。他们的解决方案是使用一个"指数移动平均教师编码器"来产生稳定的目标标签——这个教师编码器的参数是学生编码器参数的滑动平均，更新非常缓慢，像一个经验丰富的老师，给出的参考答案不会因为学生的每次波动而大幅变化，从而避免了模型陷入所有触觉输入都映射到相同表达的"坍塌"困境。

学生模型被训练成在这个压缩空间里预测未来的触觉状态，损失函数同时优化预测方向（用余弦相似度衡量）和预测幅度（用平滑L1损失衡量），确保预测结果在方向和大小两个维度上都尽量贴近教师给出的目标。整个训练只需要一个阶段，不需要先单独预训练触觉模块再拼接到策略网络上，所有目标一起优化。

在模型结构上，每种输入模态都有专属的编码模块。图像通过预训练的残差网络提取特征；关节状态和受力信号通过轻量级多层感知机处理；触觉输入则采用了一套按手指区域独立编码的方案——拇指、食指、中指等每个区域先被分成若干局部小块，每个小块重塑成二维压力图后经过卷积网络处理，再合并成该区域的紧凑表达。不同模态的特征统一通过交叉注意力机制压缩成固定数量的"令牌"，然后输入变换器编码器进行跨模态融合。输出端同样是模块化的设计，不同类型的动作（末端执行器姿态、躯干姿态、行走速度、手指动作）由独立的专家模块解码，触觉预测也由专属的"梦境专家"模块产生。部署时，梦境专家的输出完全不使用，只有动作专家的输出被发送给机器人执行。

四、五项真实世界任务的考验

研究团队在五项各具特色的真实操作任务上测试了整套系统，每项任务都针对不同类型的挑战。

第一项任务是把一个T形积木插入一个T形底座。这个任务之所以困难，在于底座与积木之间的间隙只有3.5毫米，相当于在一个只比零件本身大一点点的孔里精确对齐并推入。细微的角度偏差就会卡住，需要机器人根据接触力实时微调姿态。

第二项任务是整理书本。机器人面对的是一本放在桌面上的硬皮书，书本太薄，没有直接抓握的空间。机器人需要先用手指将书轻轻推出去，制造出一个可以抓握的悬空边缘，再抓起来放到书架上。任务中使用了两种不同的书，且每次书的初始位置都在一定范围内随机变化。

第三项任务是叠毛巾，这是典型的可变形物体操作任务，毛巾每次的初始折叠状态都不同，整个任务包含多个连续的操作步骤，对长时程规划和精细手部控制都有要求。

第四项任务是猫砂铲。机器人需要先蹲下去捡起地面上的铲子，然后用铲子从猫砂盆里舀起猫砂，再走到垃圾桶边把猫砂倒进去。这个任务同时测试了全身协调（蹲下是非常大幅度的动作）和工具使用能力，而且铲子、垃圾桶的位置每次都有变化。

第五项任务是端茶服务。机器人走到一个吧台旁，拿起两杯随机摆放的茶，端着走向另一张桌子，停下来，把两杯茶放到桌上。这个任务测试的是双手同时持物行走时保持物体稳定的能力，以及整个过程中的全身协调。

每项任务进行20次真实机器人测试，同时比较了三种方法：只使用视觉和本体感觉的ACT基线、在此基础上额外加入触力觉输入的ACT基线，以及完整的HTD方法。HTD在五项任务的平均成功率上比较强的那个ACT基线提升了约30个百分点，换算为相对提升约为90.9%，在平均得分率（部分完成也算分）上也提升约17.9个百分点。

具体分析各任务的表现，T形插入任务体现了触觉对精密对齐的帮助，毛巾叠放展示了在长序列可变形物体操作中的优势，猫砂铲任务获得了最大的相对提升，原因是蹲下加工具使用的组合对全身协调要求极高。端茶任务中，ACT方法在双手成功抓起两杯茶之后经常无法顺利完成转身和行走，而HTD的表现稳健得多，研究团队认为这与HTD把行走速度命令作为独立模块解码有关，让这个维度较低但行为上非常重要的输出不会被其他高维动作信号淹没。书本整理任务的提升相对较小，可能因为该任务的视觉线索更充分、位置变化范围更小，对触觉的额外信息依赖相对低一些。

五、触觉到底有多重要——拆解实验说话

为了精确理解触觉和触觉梦境各自的贡献，研究团队在T形插入和毛巾叠放两个任务上做了细致的消融实验，对比了四种变体。

第一种是完全去掉触觉输入和触觉梦境训练目标，第二种是保留触觉输入但去掉梦境预测任务，第三种是加入梦境训练但在原始传感器空间预测未来触觉，第四种是完整方法，在压缩的潜在空间里预测未来触觉。

实验结果揭示出三个层次的结论。首先，单纯把触觉数据喂给模型并不稳定可靠——在毛巾叠放上有帮助，在T形插入上没有帮助，平均成功率甚至略微下降。这说明触觉信号本身如果没有好的学习机制配合，并不能自动转化为更好的控制表现，反而可能引入噪声干扰。

其次，加入梦境预测任务之后，无论是在原始空间还是在潜在空间预测，都明显优于只用触觉输入不做预测的情况，说明让模型主动"预期"未来接触的学习信号，比被动接收当前触觉信号更有效。

最后，在潜在空间里做梦境预测比在原始空间里做效果显著更好，成功率相对提升约30%。这一点在研究者的直觉中并不难理解——原始触觉信号高维、稀疏、充满噪声，让网络在这个空间里学习预测，信号质量太低；而压缩空间里的表达滤除了噪声，保留了接触状态的结构化信息，预测目标更加清晰，学习效率自然更高。

研究团队还对预测的质量做了定性可视化。在端茶和叠毛巾两个任务的完整操控过程中，模型预测的未来手部受力轨迹与真实记录的力信号在接触发生的时机和力的大小上都保持了较好的一致性。触觉潜在表达的相似度在持续接触阶段稳定维持在较高水平，只在接触状态突然切换的瞬间出现短暂下降，而这种下降是可以理解的——模型以开环方式一次性预测一个完整的短序列，当接触状态在序列中途发生不可预测的突变时，预测自然会出现偏差，但整体上仍然保持了较高的准确性。

从潜在表达的热力图上还能观察到一个有意思的规律：当手指处于无接触或轻接触状态时，不同手指、不同任务之间的基础激活模式相互类似；一旦发生较强的接触，激活模式就变得高度个性化，产生独特的高强度响应图案。这说明学习到的触觉潜在空间确实捕捉到了有物理意义的接触结构，而不仅仅是对原始传感器信号的简单压缩。

归根结底，这项研究用一套实际可运行的完整系统证明了一件事：要让人形机器人在真实世界里可靠地做那些对人类来说再自然不过的操作任务，光有眼睛和本体感觉是不够的，触觉必须成为核心感知模态，而且需要用"预测未来触感"这种主动方式来学习，而非被动地把触觉信号塞进输入端了事。这套"硬件齐备、数据高效、训练一步到位"的路径，可能是通往更通用人形机器人的一条实际可行的道路。

说到底，这项研究解决的是一个看起来很具体，实则牵一发动全身的问题：机器人的手怎样才能真正"感觉"到它在触摸什么。研究团队没有绕弯子，而是老老实实地搭了一套完整的系统，从让机器人站稳，到帮它学会抓握，再到让它能预感未来的接触，每一步都有扎实的实验支撑。五项任务超过九成的相对提升率，以及消融实验里层层剥开的证据，共同指向一个清晰的结论：触觉梦境这个主意是对的，而且在压缩的潜在空间里做这件事比在原始传感器数据里做更聪明。这对未来想在家里帮你叠衣服、端茶倒水的人形机器人来说，是一个值得认真参考的方向。感兴趣的读者可以通过arXiv编号2604.13015找到完整论文，进一步了解技术细节。

Q&A

Q1：触觉梦境（Touch Dreaming）是什么原理，为什么比直接输入触觉信号效果更好？

A：触觉梦境是一种训练技巧，让机器人在学习动作的同时，额外学习预测未来一段时间内手部会感受到什么触觉和受力状态。这个预测任务迫使模型内部必须构建出对接触动态的理解，而不仅仅记忆"看到这个画面就做这个动作"。关键是预测在压缩的潜在空间里进行，而不是直接预测原始传感器数值，因为原始触觉数据维度高、噪声大、稀疏，直接回归这种信号效果很差；压缩空间过滤了噪声，保留了接触结构，学习信号更清晰，这使得成功率相比在原始空间预测又提升了约30%。

Q2：人形机器人下半身控制器是如何训练出来的，为什么要用教师-学生框架？

A：控制器在计算机模拟环境中用强化学习训练。先训练一个"教师"策略，它可以获取模拟器内部的特权数据（如精确脚踩地状态），因此表现出色；然后训练一个"学生"策略，学生只能使用真实机器人能拿到的传感器数据来模仿教师的动作选择，通过减小两者输出差异来学习。这样做是因为教师在模拟中表现好，但依赖真实世界没有的信息，无法直接部署；学生通过模仿获得了教师的能力，却只使用可用信息，可以直接在真实机器人上运行，解决了模拟到现实的迁移问题。

Q3：人形触觉梦境变换器（HTD）在部署时是否需要运行触觉预测模块？

A：不需要。触觉预测模块（称为梦境专家）只在训练阶段使用，它的作用是通过预测未来触感这一辅助任务，逼迫模型的共享变换器主干学习到对接触动态敏感的内部表达。训练完成后，部署时只需要运行动作专家模块，梦境专家的输出完全不被调用。这意味着推理阶段的计算量不增加，整个系统在实际使用中与普通策略网络一样高效，不存在额外的运行时开销。

卡内基梅隆大学：人形机器人实现类人触觉抓握力道感知能力提升

Phi-3-mini-4k-instruct-gguf实战案例：用Chainlit构建个人AI知识助理

相亲数据预测翻车？用Python的train_test_split和随机森林，聊聊数据划分的‘坑’与最佳实践

LaTeX数学公式字体控制：从斜体到正体的实用指南

CentOS 8停服后，yum install报错‘Could not resolve host’的终极修复手册（附阿里云源修正）

R语言实战：oncoPredict包在肿瘤药敏预测与生物标志物挖掘中的应用

real-anime-z镜像交付标准：符合OCI规范、SBOM软件物料清单内嵌