快速了解部分
基础信息(英文):
- 题目:Large Video Planner Enables Generalizable Robot Control
- 时间年月:December 2025(arXiv:2512.15840v1 [cs.RO] 17 Dec 2025)
- 机构名:MIT (Massachusetts Institute of Technology)、UC Berkeley (University of California, Berkeley)、Harvard University
- 3个英文关键词:Large Video Planner (LVP)、Generalizable Robot Control、Video Generative Pre-training
1句话通俗总结本文干了什么事情
研究者提出“大型视频规划器(LVP)”,通过大规模人类活动与机器人演示视频预训练,让模型能根据任务指令和初始场景生成零样本视频计划,再提取视频中的动作并适配到真实机器人(如灵巧手、平行夹爪),实现跨未知任务和环境的机器人控制泛化。
研究痛点:现有研究不足 / 要解决的具体问题
- 现有机器人基础模型(如VLA模型)依赖多模态大语言模型(MLLM)扩展,但机器人动作数据稀缺,导致泛化能力差,难以应对未知任务和场景;
- 静态图文对(image-text pairs)无法捕捉物理世界的时空动态(状态-动作序列),与机器人行为的自然对齐性弱;
- 传统视频生成模型优化目标是内容创作,易出现模态坍缩,缺乏物理一致性和指令遵循能力,无法直接用于机器人规划。
核心方法:关键技术、模型或研究设计(简要)
- 构建LVP-1M数据集:整理140万条互联网尺度视频剪辑,涵盖人类活动(如日常操作)和机器人演示(如夹爪抓取),经动作标注、时空对齐和质量过滤,聚焦“动作-centric”数据;
- 设计LVP视频基础模型:基于 latent 扩散框架,结合“扩散强制Transformer”(灵活处理图像到视频、视频到视频生成)和“历史引导”(提升时空一致性),输入为任务指令+初始帧,输出为任务完成的视频计划;
- 动作提取与重定向:用HaMeR(手重建)、MegaSAM(4D场景重建)提取视频中人体动作,通过Dex-Retargeting适配到不同机器人,结合cuRobo(逆运动学)生成机器人控制信号。
深入了解部分
相比前人创新在哪里
- 模态创新:首次以“视频”为机器人基础模型的核心模态,而非MLLM扩展,直接利用视频天然包含的时空动态(状态-动作序列),更贴合机器人行为需求;
- 规模与泛化创新:首个基础模型尺度的“生成式机器人视频规划器”,开源模型与数据集,支持零样本跨任务泛化(如从“撕胶带”到“开冰箱”),而非局限于同类物体/场景;
- 技术融合创新:结合“扩散强制”(独立噪声水平实现多类型生成)与“历史引导+文本CFG”,解决传统视频生成的物理一致性差、指令遵循弱问题,同时通过两阶段训练(持续预训练+低相机运动微调)降低视频中的无效相机抖动,适配机器人执行;
- 落地链路创新:端到端打通“视频生成→动作提取→机器人适配”,支持灵巧手(多自由度)和平行夹爪(低自由度)等不同形态机器人,实现真实场景执行。
解决方法/算法的通俗解释,以及具体做法
通俗解释
把机器人控制拆成“先想象再执行”两步:第一步让模型“看海量视频学做事”(如看人类撕胶带、机器人开抽屉),学会根据任务(如“撕透明胶带”)和初始画面(胶带位置)生成“虚拟演示视频”;第二步把视频里的“手动作”转成机器人能懂的指令——比如先重建视频中手的3D姿势,再调整成机器人手的关节角度,最后算好手臂运动轨迹让机器人执行。
具体做法
数据集构建:
- 来源:8个数据集(如Pandas-70M筛选人类动作、Bridge/Droid机器人演示、Ego4D第一视角操作);
- 处理:统一动作时长为3秒(16fps),机器人视频加速到人类动作速度,用Gemini生成多版动作标注(如“拿起蓝色杯子”→“用右手拿起桌面上的蓝色塑料杯”),过滤高相机抖动、无清晰手/机器人的视频。
模型训练:
- 第一步(持续预训练):基于Wan 2.1 14B视频模型权重,移除冗余图像引导通道,用LVP-1M训练60k步(128批大小,200B tokens),学习动作动态与指令遵循;
- 第二步(低相机运动微调):用低光流视频子集训练10k步,减少生成视频中的无效相机抖动;
- 关键技术:扩散强制Transformer对“历史帧”和“未来帧”用独立噪声水平(如历史帧噪声为0则为图像到视频生成),历史引导结合文本CFG(公式见3.1节),让视频同时贴合初始帧和任务指令。
动作提取与执行:
- 手重建:HaMeR预测每帧手的3D顶点和姿态,MegaSAM提供深度信息修正手的位置漂移,保证时空平滑;
- 重定向:Dex-Retargeting将人类手关节角度映射到机器人手(如灵巧手5指关节),平行夹爪则用GraspNet预测抓取姿势;
- 机器人控制:将手轨迹转成机器人基坐标系,用cuRobo解算手臂关节角度,同步控制手臂和手执行。
基于前人的哪些方法
- 视频扩散技术:借鉴Wan 2.1 14B(latent视频扩散)、Diffusion Forcing(独立噪声水平控制生成类型)、Rolling Diffusion(滑动窗口处理长视频);
- 引导与一致性技术:借鉴History Guidance(历史帧引导提升时空一致性)、Classifier-Free Guidance(CFG,提升指令遵循);
- 动作与场景重建技术:借鉴HaMeR(单帧手3D重建)、MegaSAM(动态场景4D重建)、Dex-Retargeting(手动作重定向);
- 机器人控制技术:借鉴cuRobo(快速逆运动学求解)、GR-1等模型的“视频生成→动作执行”链路思路(但LVP更侧重零样本泛化)。
实验设置、数据、评估方式
1. 实验数据
- 训练数据:LVP-1M数据集(140万剪辑,8个来源,涵盖人类/机器人、第一/第三人称、室内/户外场景,表1详细统计);
- 测试数据:第三方标注的100个“未知任务”(如“按电梯按钮”“铲咖啡豆”“撕胶带”),场景包括加油站、卫生间等训练中未出现的环境。
2. 实验设置
- 模型参数:140亿参数(基于DiT架构),训练硬件128张H100 SXM5 GPU,总训练时长14天;
- 机器人平台:① Franka机械臂+平行夹爪;② Unitree G1机械臂+Inspire灵巧手;
- 基线模型:视频生成基线(Wan 2.1 14B、Cosmos-Predict 2 14B、Hunyuan I2V 13B)、机器人控制基线(π₀、OpenVLA)。
3. 评估方式
- 视频计划评估(4级指标,第三方标注):
- Level 1:手与目标物体正确接触;
- Level 2:最终帧达成任务目标;
- Level 3:动作连续且任务完成(允许轻微物理瑕疵);
- Level 4:物理一致性完美且无视觉瑕疵;
- 真实机器人评估:统计任务成功率(如灵巧手“开抽屉”成功率6/10,“擦桌子”成功率8/10),对比基线模型在未知任务中的表现。
提到的同类工作
- 视频扩散模型:Stable Video Diffusion(视频合成)、Wan 2.1 14B(大规模视频生成)、Cosmos-Predict 2(视频预测)、Hunyuan I2V(图像到视频生成);
- 机器人基础模型:
- VLA模型:OpenVLA、π₀、RT-1/RT-2(直接映射多模态输入到动作);
- 语言-机器人融合模型:PaLM-E( embodied LLM)、RoboFlamingo(LLM+低阶控制器);
- 视频生成用于机器人:Gen2act(视频生成引导机器人控制)、Dreamitate(真实场景视频生成用于策略学习)、Video world models(视频作为机器人模拟器评估器)。
和本文相关性最高的3个文献
- Song et al., 2025 (History Guidance):提出“历史引导”技术,通过对前序帧的引导提升视频生成的时空一致性,是LVP模型中解决“视频抖动”和“指令贴合”的核心基础;
- Chen et al., 2024 (Diffusion Forcing):提出“扩散强制”框架,允许对视频序列的不同部分施加独立噪声水平,支持灵活的图像到视频、视频到视频生成,是LVP实现多类型视频计划生成的关键技术;
- Du et al., 2023 (Learning universal policies via text-guided video generation):首次探索“文本引导视频生成”用于机器人通用策略学习,为LVP“视频计划→机器人动作”的链路提供了早期思路,LVP在此基础上扩展了数据规模和机器人适配能力。