UniBYD：超越人类示教模仿的跨实体机器人操作学习统一框架-平芜编程栈

在嵌入式智能领域，从人类演示中学习机器人操作是主流范式，但人类手部与不同形态机器人手（如2指、3指、5指）之间的形态差异鸿沟，成为技术落地的核心障碍：

基于动作重定向的方法仅映射运动学姿态，忽略动态信息；
传统模仿学习局限于复制人类动作，因手指数量、自由度等物理差异，任务性能远低于人类水平；
现有强化学习方法存在两难：要么依赖人类轨迹导致策略无法适配机器人自身形态，要么完全脱离人类先验陷入局部最优；
缺乏统一框架，多数方法仅针对特定机器人手设计，无法泛化到多样化形态。
UniBYD核心目标是构建一种学习范式：突破单纯的人类动作模仿，让机器人自主发现与自身物理特性匹配的操作策略，实现跨形态机器人手的高效泛化。

核心创新：UniBYD框架设计
UniBYD是一套统一的强化学习框架，通过统一形态表示、动态强化学习机制、精细模仿引导三大核心组件，实现从模仿到探索的平滑过渡，最终学到适配机器人形态的操作策略（figure2）。

图片
统一形态表示（UMR）：跨形态建模的基础
为解决不同机器人手形态（自由度、手指数量、刚体数量）的建模差异，UMR将动态状态与静态属性统一为固定维度表示：

动态状态处理：手腕状态固定为13维（位置、姿态、速度）；关节状态（角度、速度）通过零填充至最大自由度，并对关节角度进行三角函数编码（、）避免环绕问题，得到填充后的关节状态：
静态属性补充：从URDF模型提取手指数量、自由度、刚体数量，构成静态描述符；
最终观测向量：拼接手腕状态、填充后关节状态与静态描述符，即，让政策网络能处理任意形态的机器人手。
动态PPO：从模仿到探索的渐进式学习
基于UMR提供的统一观测空间，动态PPO通过奖励退火机制和损失协同平衡，实现从模仿人类到自主探索的平滑过渡。

（1）奖励退火机制：动态调整模仿与探索权重
设计两类核心奖励，并通过权重动态变化引导学习阶段过渡：

模仿奖励（）：稠密奖励，量化当前状态与人类演示状态的相似度，涵盖手腕姿态、指尖位置、关节运动、物体状态等多维度差异，同时加入动作能耗惩罚：
目标奖励（）：稀疏奖励，仅当任务成功完成时给予固定奖励，引导策略关注任务目标而非单纯模仿：
动态权重调整：总奖励为两类奖励的加权和，权重随训练进程、模仿质量（滑动窗口平均模仿奖励）和成功率（）动态变化：
权重变化分为三阶段：

早期模仿阶段（或）：，完全依赖模仿奖励；
混合阶段：，模仿权重随成功率衰减，逐步转向目标奖励；
探索阶段（）：（极小值），策略完全以任务成功为导向自主探索。
（2）损失协同平衡：保证探索有效性与物理可行性
为避免过早收敛和动作超出物理范围，在PPO目标中加入两类损失：

熵正则化：鼓励策略探索，系数随训练线性衰减，早期探索充分，后期逐步收敛：
边界损失：通过可微软边界惩罚，避免动作均值超出物理范围，解决硬裁剪破坏梯度的问题：
最终PPO目标函数：
熵正则化与边界损失形成协同：前者促进探索，后者约束探索在物理可行范围内。
混合马尔可夫影子引擎：早期模仿的精细引导
早期训练中，政策网络较弱，微小动作偏差会累积导致任务失败，影子引擎通过动作混合和对象辅助控制解决这一问题（figure3）：

图片
（1）灵巧手控制：混合政策与专家动作
执行动作并非单纯的政策预测，而是政策动作与人类专家动作的加权混合，权重随训练epoch线性调整：

早期（）：完全依赖专家动作，政策学习单步操作，避免误差累积；
中期（衰减）：逐步增加政策动作权重，让政策在专家引导下学习状态转移逻辑；
后期（）：完全依赖政策动作，过渡到纯马尔可夫决策过程。
（2）对象控制：PD控制器辅助稳定
通过PD控制器对操作对象施加动态支撑力，约束对象沿专家轨迹运动，避免掉落或大幅偏离，支撑力增益随训练同步衰减：

实验设计与核心结果
为全面验证框架性能，设计了UniManip基准和多维度实验，涵盖模拟与真实世界场景。

UniManip基准：首个跨形态机器人操作基准
任务覆盖：29类单/双手操作任务，适配2指、3指、5指机器人手（5指支持双手任务，2/3指仅单任务）；
评价指标：
成功率（SR）：所有时间步满足位置误差≤3cm、姿态误差≤30°的任务占比；
位置误差（PE）/姿态误差（OE）：成功任务中对象状态与目标的平均偏差；
适配分数（AS）：专家评分（0-10），评估策略与机器人形态的适配性和操作质量。
对比实验：超越现有SOTA
对比基于逆运动学的重定向方法、ManipTrans（当前SOTA）、DexMachina*（复现版本），结果显示（table1）：

图片
跨形态泛化：唯一在所有手形态（2指、3指、5指单/双手）上均实现高成功率的框架；
成功率提升：整体比ManipTrans高67.9%，5指单任务从29.75%提升至87.47%，5指双手任务达到78.07%（其他方法均失败）；
操作精度：PE和OE分别降低81.65%和58.77%，AS达到8.83（远超ManipTrans的6.69）。
可视化结果（figure4）显示：ManipTrans机械复制人类三指抓握马克杯的动作，因机器人手指过宽导致滑落；而UniBYD适配机器人形态，采用两指穿柄+小指支撑的策略，成功完成任务。

消融实验：组件有效性验证
通过逐步添加核心组件（影子引擎SE、目标奖励GR、损失协同平衡LSC），验证各模块贡献（table2）：

基础模型（仅模仿奖励）：SR较低，无法适配形态；
+SE：SR提升10.33%，解决早期训练稳定性问题；
+SE+GR：SR再提升20.14%，AS达7.80，目标奖励有效引导形态适配策略探索；
+SE+GR+LSC：性能最优，避免过早收敛，发现更优策略。
训练过程可视化（figure5）显示：基础模型快速陷入局部最优，而UniBYD通过组件协同，后期成功率持续上升并稳定在高值；策略进化过程（figure7）显示，训练从单纯模仿逐步过渡到适配机器人形态的自主探索，最终形成高效操作策略。

图片

真实世界迁移：从模拟到实物的有效性
在X-Arm 2指、Casia Hand-G 3指、OHandT M 5指机器人上验证，任务成功率分别达到52%（26/50）、64%（32/50）、70%（35/50）。figure8显示，UniBYD针对不同手形态调整策略：2指斜向夹紧烧杯，3指环绕包裹烧杯，充分适配硬件特性。

核心结论与意义
范式突破：跳出“复制人类动作”的局限，提出“形态适配策略”学习范式，通过动态强化学习实现从模仿到探索的平滑过渡；
泛化能力：UMR统一了不同形态机器人手的表示，使框架能直接适配2指、3指、5指单/双手，解决了跨形态泛化的核心难题；
性能与实用性：在UniManip基准上大幅超越SOTA，且成功迁移至真实世界机器人，为多样化机器人操作任务提供了通用解决方案；
基准价值：UniManip作为首个跨形态操作基准，填补了现有评估体系的空白，为该领域研究提供了统一的对比标准。
参考
[1]UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations