news 2026/4/15 6:28:01

Physics-Based Dexterous Manipulations with Estimated Hand Poses andResidual Reinforcement Learning论文

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Physics-Based Dexterous Manipulations with Estimated Hand Poses andResidual Reinforcement Learning论文

该论文提出了一种基于物理的灵巧操作框架,仅通过深度传感器和 3D 手部姿态估计器(HPE),就能在虚拟环境中实现精准的徒手操作,核心是通过残差强化学习(RL)与模仿学习(IL)的混合方法,修正 HPE 的噪声和误差,同时兼顾物理真实性与动作视觉一致性。

一、研究背景与核心问题

  1. 现有技术局限
    • 传统虚拟交互依赖昂贵的动作捕捉设备(如数据手套、外骨骼),而仅用 HPE(一种仅凭借视觉传感器生成关节的3D位置的技术) 时,指尖位置、接触点的微小误差会导致交互失败;
    • 现有方法(如强制手部闭合生成接触力)仅适用于简单抓取,无法完成灵巧操作(如手持物体调整姿态);
    • 纯 RL/IL 方法无需用户输入,但生成的动作可能脱离用户意图,且缺乏在线实时修正能力。
  2. 核心挑战:如何将含噪声的 HPE 输入,映射为符合物理规律、完成目标任务,且视觉上贴近用户动作的虚拟手部姿态。

二、核心方法:残差混合学习框架

框架整体流程为:HPE 估计输入→逆运动学(IK)映射→残差智能体修正→物理模拟器交互,核心包含三部分:

1. 逆运动学映射(IK)

将用户的 3D 手部关节位置估计(HPE 输出),映射为虚拟手部模型的关节角度(动作空间),公式为:\(a_t=\kappa(x_t(\phi_t))\),其中\(x_t\)是 HPE 估计的手部姿态,\(\phi_t\)是视觉特征,\(\kappa\)为映射函数(可手动设计或数据驱动学习)。但由于 HPE 噪声和人机模型差异,直接映射的动作无法满足物理交互需求。

2. 残差手部智能体(Residual Hand Agent)

在 IK 输出基础上,添加微小残差动作\(f_t\)修正误差,最终虚拟手部动作公式为:\(a_t=\kappa(x_t(\phi_t)) - f_t(s_t,\kappa(x_t(\phi_t)),\phi_t)\),其中\(s_t\)是模拟器状态(如手 - 物相对位置、速度)。

  • 学习范式:采用无模型混合 RL+IL,以近端策略优化(PPO)为 RL 基础,保证任务完成度;结合对抗性模仿学习(GAIL),使动作贴近人类示范(数据手套采集的无噪声轨迹)。
  • 奖励函数设计
    • 任务奖励(\(r_{task}\)):引导完成具体目标(如开门、物体定位);
    • 模仿奖励(\(r_{IL}\)):通过判别器鼓励动作与人类示范相似,避免不自然动作;
    • 姿态奖励(\(r_{pose}\)):最小化虚拟手部与 HPE 输入的关节位置误差,保证视觉一致性。
3. 数据生成方案

由于缺乏 “成功交互的 HPE 序列” 训练数据,提出一种数据生成策略:

  • 以数据手套采集的成功示范轨迹为基础,从大规模手部姿态数据集(BigHand2.2M)中,检索与示范姿态视角、关节分布相似的真实深度图像;
  • 对检索到的图像重新运行 HPE,生成含真实噪声的训练输入,弥补合成噪声与真实 HPE 噪声的域差异。

三、实验验证

在两类场景中验证框架性能,均优于传统 IK、纯 RL/IL 等基线方法:

1. 虚拟环境灵巧操作(VR 场景)
  • 任务:开门、手持笔调整姿态、用锤子钉钉子、物体 relocation;
  • 结果:在含随机噪声(σ=0.05 rad)和 HPE 结构化噪声的场景中,任务成功率显著高于基线(如开门任务成功率 85.95% vs 传统 IK 27.81%),且收敛速度更快(如开门任务仅需 3.8M 样本,纯 RL 需 7.9M 样本)。
2. 真实场景手 - 物交互重建(In-the-Wild)
  • 数据:采用 F-PHAB 数据集的真实 RGBD 序列(“倒果汁”“递硬币”);
  • 指标:任务成功率、手部姿态误差(\(E_{pose}\))、序列稳定长度(\(\bar{T}\));
  • 结果:“倒果汁” 任务测试成功率 65%(基线最高 38%),“递硬币” 任务 83.3%(基线最高 28.57%),且虚拟姿态与真实视觉输入的误差更小,物理交互更稳定(如避免硬币掉落、瓶子滑落)。

四、核心贡献

  1. 提出残差混合学习框架,首次实现仅用 HPE 完成复杂灵巧操作,无需昂贵硬件;
  2. 设计多目标奖励函数,平衡物理真实性、任务完成度与动作视觉一致性;
  3. 提出数据生成方案,解决 “成功 HPE 序列缺失” 的训练数据难题;
  4. 验证了框架在 VR 交互和真实场景重建中的通用性,为虚实融合交互提供新范式。

五、未来方向

  • 实现端到端训练(让模拟器梯度反向传播至 HPE,进一步优化姿态估计);
  • 融入 6D 物体姿态估计,扩展更复杂的手 - 物交互场景;
  • 生成更多合成数据缩小训练 - 测试差距,提升框架泛化性。

简单来说,这篇论文追求仅用 HPE 就能完成物理合规的灵巧操作。具体方法如下:首先,找到数据手套采集的 “无噪声成功动作轨迹”以及大规模手部姿态数据集,然后:

  1. 数据生成(解决 “没有含噪声成功 HPE 序列” 的问题)

    • 第一步:用 “专家示范轨迹” 驱动虚拟手部模型,得到虚拟手部的姿态序列(关节位置、角度);
    • 第二步:从 BigHand2.2M 中,检索与 “虚拟姿态” 视角、关节分布相似的真实深度图像(保证噪声真实性);
    • 第三步:对检索到的真实图像跑 HPE,生成 “含真实噪声的关节位置”(模拟用户实际输入的 HPE 结果);
    • 第四步:用逆运动学(IK)把 “含噪声的关节位置” 映射成 “不完美的虚拟关节角度”(初始动作,有误差,可能导致交互失败)。
    • 最终生成训练数据:含噪声HPE输入 → IK初始动作 → 专家示范动作(目标),同时还能拿到物理模拟器的状态(手 - 物相对位置等)。

这样我们就得到了可以用来训练残差模型用的数据。具体训练的时候,我们采用了强化学习与模仿学习相混合的方法:

  • RL 部分:在 MuJoCo 模拟器中,模型基于 “当前状态(手 - 物位置、速度等)+ IK 初始动作 + 视觉特征”,输出微小残差动作\(f_t\),调整后的动作输入模拟器;根据 “任务是否成功(抓稳了吗?门开了吗?)+ 动作是否贴近用户输入(姿态误差)” 拿奖励 / 惩罚,通过 PPO 算法更新模型(试错学习);
  • IL 部分:用 “专家示范轨迹” 训练判别器,判断调整后的动作 “像不像人类做的”,给模仿奖励 / 惩罚,避免 RL 学出怪异动作;
  • 姿态奖励:直接计算 “调整后的虚拟关节位置” 与 “专家示范的关节位置” 的差距(梯度来源),惩罚偏离过大的调整,保证视觉一致性。

这样我们就得到了一个残差模型,可以根据不同的人类手数据生成的HPE,得到比较准确的,可以直接用来完成任务的虚拟手部动作。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 4:41:05

大模型Top-k采样实现:Miniconda-Python代码示例

大模型Top-k采样实现:Miniconda-Python代码示例 在大语言模型(LLM)日益普及的今天,我们不再只是惊叹于它们“能说会道”,而是更关注如何让生成内容既合理又有创造力。一个看似简单的技术选择——比如解码策略&#xff…

作者头像 李华
网站建设 2026/4/12 23:20:29

pikachu-RCE,越权,目录遍历

RCE 漏洞成因:RCE(remote command/code execute)概述 RCE漏洞,可以让攻击者直接向后台服务器远程注入操作系统命令或者代码,从而控制后台系统。 远程系统命令执行 一般出现这种漏洞,是因为应用系统从设计上需要给用户提供指定的…

作者头像 李华
网站建设 2026/4/9 0:28:23

Linux crontab定时任务:Miniconda-Python脚本自动化执行

Linux crontab定时任务:Miniconda-Python脚本自动化执行 在高校实验室的服务器机房里,一位研究生正为每周重复的手动模型训练感到疲惫——每次都要登录、激活环境、运行脚本、检查日志。而隔壁团队却早已实现“躺平式科研”:每天凌晨自动完成…

作者头像 李华
网站建设 2026/4/13 17:10:01

Token长度与成本关系分析:合理规划API调用

Token长度与成本关系分析:合理规划API调用 在AI应用日益普及的今天,大语言模型(LLM)已经深度嵌入到内容生成、智能客服、代码辅助等多个业务场景中。然而,随着调用量的增长,许多团队开始发现——账单的增长…

作者头像 李华
网站建设 2026/4/13 1:12:36

Conda info查看Miniconda环境详细信息

Conda info查看Miniconda环境详细信息 在如今的 AI 实验室、数据科学团队或云原生开发环境中,你是否遇到过这样的场景:同事说“代码在我机器上能跑”,但你拉下项目后却报错一堆依赖冲突?又或者,在服务器上部署模型训练…

作者头像 李华
网站建设 2026/4/15 4:59:17

开源贡献流程:向Miniconda-Python3.9镜像提PR

开源贡献流程:向Miniconda-Python3.9镜像提PR 在 AI 工程项目日益复杂的今天,一个常见的痛点浮出水面:不同团队成员使用不同的操作系统和 Python 环境,导致“在我机器上能跑”的尴尬局面频发。更别提当某个依赖包升级后&#xff0…

作者头像 李华