news 2026/6/13 18:37:59

【论文自动阅读】DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models

快速了解部分

基础信息(英文):

  1. 题目:DREAMGEN: Unlocking Generalization in Robot Learning through Video World Models
  2. 时间年月:2025.5
  3. 机构名:NVIDIA, University of Washington, KAIST, UCLA, UCSD, CalTech, NTU, University of Maryland, UT Austin
  4. 3个英文关键词:Video World Model, Robot Learning, Synthetic Data

1句话通俗总结本文干了什么事情

本文提出了一种名为DREAMGEN的管道,利用视频生成模型生成机器人的“梦境”视频(合成数据),并将其转化为动作指令,从而让机器人仅通过少量真实操作数据就能学会在新环境和新任务中泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的机器人学习高度依赖人工示教(Teleoperation)收集数据,成本高昂且难以覆盖所有任务和环境;虽然仿真(Simulation)可以生成合成数据,但存在严重的“仿真到现实(Sim-to-Real)”差距,且难以模拟复杂的物理交互(如流体、变形物体)。

核心方法:关键技术、模型或研究设计(简要)

DREAMGEN包含四个步骤:首先在少量真实机器人数据上微调视频世界模型(如WAN2.1);然后利用该模型生成目标行为的视频;接着通过逆动力学模型(IDM)或潜在动作模型(LAPA)从视频中提取伪动作(Pseudo-actions);最后利用这些视频-动作对(神经轨迹)训练下游的机器人策略模型。

深入了解部分

相比前人创新在哪里

  1. 范式转变:不同于以往将视频模型作为实时规划器,DREAMGEN将其作为大规模合成数据生成器。
  2. 零到一的泛化:仅需单一环境下的单一任务(如抓放)数据,即可泛化到全新的行为(如倒水、使用工具)和全新的环境。
  3. 无需复杂工程:避免了传统仿真中繁琐的手工建模和物理参数调整,直接利用视频模型的物理先验知识。

解决方法/算法的通俗解释

想象一下,机器人先看了一些操作视频(微调),然后它开始“做梦”(生成视频),梦里它在完成各种复杂的任务。虽然梦里没有具体的关节角度指令,但机器人通过另一个模型学会了从梦中“倒推”出应该怎么做动作(伪动作)。最后,机器人通过反复“做梦”和“复盘”,学会了如何在现实中执行任务。

解决方法的具体做法

  1. 微调视频世界模型:使用LoRA技术在机器人操作数据上微调视频生成模型(如WAN2.1),使其适应机器人的形态。
  2. 生成视频(Rollout):给定起始画面和语言指令,生成后续的行为视频。
  3. 标注伪动作:使用训练好的逆动力学模型(IDM)分析两帧图像之间的差异,推算出机器人应该执行的动作序列。
  4. 策略训练:将生成的视频和推算出的动作作为“神经轨迹”,与少量真实数据混合,训练Diffusion Policy或GR00T N1等策略模型。

基于前人的哪些方法

  1. 视频生成模型:基于SOTA的文本到视频生成模型(如WAN2.1, CogVideoX, Hunyuan, Cosmos)。
  2. 动作提取:基于逆动力学模型(IDM)和潜在动作模型(LAPA)的方法来从视频中提取动作。
  3. 策略模型:基于现有的视觉运动策略模型,如Diffusion Policy, π₀, 和 GR00T N1。

实验设置、数据、评估方式

  1. 实验设置
    • 仿真:RoboCasa基准测试(Franka Emika机械臂)。
    • 真实世界:GR1人形机器人(4个灵巧任务)、Franka机械臂(3个任务)、SO-100机械臂(2个任务)。
    • 基准:DREAMGEN BENCH,用于评估视频模型生成机器人视频的能力。
  2. 数据
    • 真实数据极少(如GR1任务仅用10-25条真实轨迹)。
    • 合成数据量大(生成数百至数千条神经轨迹)。
  3. 评估方式
    • 成功率(Success Rate):任务完成的百分比。
    • DREAMGEN BENCH指标:指令跟随(Instruction Following)和物理对齐(Physics Alignment),结合GPT-4o、Qwen2.5-VL模型评分与人工评分。

提到的同类工作

  1. RT-2 / Gemini Robotics:机器人基础模型,依赖大规模真实数据。
  2. RoboCasa / DROID:现有的机器人操作数据集和仿真基准。
  3. Video Pretraining (VPT):通过观看未标注视频学习动作,但通常用于游戏或简单模仿。
  4. Diffusion Policy / GR00T N1:下游的策略学习模型,DREAMGEN旨在为这些模型提供数据。

和本文相关性最高的3个文献

  1. GR00T N1(J. Bjorck et al., 2025):本文主要使用的下游策略模型之一,DREAMGEN生成的数据主要用于增强此类模型的泛化能力。
  2. WAN2.1(A. Wang et al., 2025):本文核心使用的视频世界模型基础(Base Model),用于生成合成视频。
  3. RoboCasa(S. Nasiriany et al., 2024):本文用于仿真验证的主要基准测试平台,用于证明DREAMGEN在扩展数据量时的有效性。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 10:32:33

Redis 集群最大节点个数到底多少?真相揭秘!

文章目录Redis 集群最大节点个数是多少 ?一、什么是 Redis 集群?二、为什么会有最大节点数限制?1. **Gossip 协议的开销**2. **槽分配机制**3. **实际性能考量**三、Redis 集群的最大节点数是多少?**官方文档中的建议****为什么是 500 而不是…

作者头像 李华
网站建设 2026/6/14 7:30:35

物联网设备漏洞挖掘:IDA Pro入门必看技巧

物联网设备漏洞挖掘:从固件到漏洞的实战之路你有没有想过,家里那台看似无害的智能摄像头,可能正悄悄成为黑客入侵内网的跳板?或者你公司部署的工业传感器,其实藏着一个未经修复的缓冲区溢出漏洞?这并非危言…

作者头像 李华
网站建设 2026/6/10 15:49:32

小白也能玩转大模型:Qwen2.5-0.5B-Instruct保姆级教程

小白也能玩转大模型:Qwen2.5-0.5B-Instruct保姆级教程 你是否觉得大模型微调是“高不可攀”的技术?是不是总以为需要深厚的算法背景和昂贵的算力才能动手实践?今天,我们就用阿里开源的小参数大模型 Qwen2.5-0.5B-Instruct&#x…

作者头像 李华
网站建设 2026/6/13 17:42:21

惊艳!通义千问2.5-0.5B在32k长文处理中的实际表现

惊艳!通义千问2.5-0.5B在32k长文处理中的实际表现 1. 引言:轻量模型也能扛起长文本大旗? 在大模型军备竞赛愈演愈烈的今天,参数规模动辄数十亿、上百亿,推理依赖高端GPU已成为常态。然而,在边缘设备、移动…

作者头像 李华
网站建设 2026/6/10 6:44:42

(保姆级)白帽黑客超详细学习路线,从青铜到王者的进阶之路,彻底甩掉脚本小子的头衔_网络安全工程师自学

算上从学校开始学习,已经在网安这条路上走了10年了,无论是以前在学校做安全研究,还是毕业后在百度、360从事内核安全产品和二进制漏洞攻防对抗,我都深知学习方法的重要性。没有一条好的学习路径和好的学习方法,往往只会…

作者头像 李华
网站建设 2026/6/11 22:11:11

EasyGBS多场景监控赋能校园安防一体化

校园安全是全社会关注的焦点。传统的校园监控系统往往面临多重困境:摄像头品牌各异形成“信息孤岛”、视频资源无法统一调用、海量录像仅用于事后追溯、安防人员被动响应效率低下……随着校园规模扩大和安全管理要求提升,一个能够实现事前预警、事中干预…

作者头像 李华