【论文自动阅读】Large Video Planner Enables Generalizable Robot Control-平芜编程栈

快速了解部分

基础信息（英文）：

题目：Large Video Planner Enables Generalizable Robot Control
时间年月：December 2025（arXiv:2512.15840v1 [cs.RO] 17 Dec 2025）
机构名：MIT (Massachusetts Institute of Technology)、UC Berkeley (University of California, Berkeley)、Harvard University
3个英文关键词：Large Video Planner (LVP)、Generalizable Robot Control、Video Generative Pre-training

1句话通俗总结本文干了什么事情

研究者提出“大型视频规划器（LVP）”，通过大规模人类活动与机器人演示视频预训练，让模型能根据任务指令和初始场景生成零样本视频计划，再提取视频中的动作并适配到真实机器人（如灵巧手、平行夹爪），实现跨未知任务和环境的机器人控制泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有机器人基础模型（如VLA模型）依赖多模态大语言模型（MLLM）扩展，但机器人动作数据稀缺，导致泛化能力差，难以应对未知任务和场景；
静态图文对（image-text pairs）无法捕捉物理世界的时空动态（状态-动作序列），与机器人行为的自然对齐性弱；
传统视频生成模型优化目标是内容创作，易出现模态坍缩，缺乏物理一致性和指令遵循能力，无法直接用于机器人规划。

核心方法：关键技术、模型或研究设计（简要）

构建LVP-1M数据集：整理140万条互联网尺度视频剪辑，涵盖人类活动（如日常操作）和机器人演示（如夹爪抓取），经动作标注、时空对齐和质量过滤，聚焦“动作-centric”数据；
设计LVP视频基础模型：基于 latent 扩散框架，结合“扩散强制Transformer”（灵活处理图像到视频、视频到视频生成）和“历史引导”（提升时空一致性），输入为任务指令+初始帧，输出为任务完成的视频计划；
动作提取与重定向：用HaMeR（手重建）、MegaSAM（4D场景重建）提取视频中人体动作，通过Dex-Retargeting适配到不同机器人，结合cuRobo（逆运动学）生成机器人控制信号。

深入了解部分

相比前人创新在哪里

模态创新：首次以“视频”为机器人基础模型的核心模态，而非MLLM扩展，直接利用视频天然包含的时空动态（状态-动作序列），更贴合机器人行为需求；
规模与泛化创新：首个基础模型尺度的“生成式机器人视频规划器”，开源模型与数据集，支持零样本跨任务泛化（如从“撕胶带”到“开冰箱”），而非局限于同类物体/场景；
技术融合创新：结合“扩散强制”（独立噪声水平实现多类型生成）与“历史引导+文本CFG”，解决传统视频生成的物理一致性差、指令遵循弱问题，同时通过两阶段训练（持续预训练+低相机运动微调）降低视频中的无效相机抖动，适配机器人执行；
落地链路创新：端到端打通“视频生成→动作提取→机器人适配”，支持灵巧手（多自由度）和平行夹爪（低自由度）等不同形态机器人，实现真实场景执行。

解决方法/算法的通俗解释，以及具体做法

通俗解释

把机器人控制拆成“先想象再执行”两步：第一步让模型“看海量视频学做事”（如看人类撕胶带、机器人开抽屉），学会根据任务（如“撕透明胶带”）和初始画面（胶带位置）生成“虚拟演示视频”；第二步把视频里的“手动作”转成机器人能懂的指令——比如先重建视频中手的3D姿势，再调整成机器人手的关节角度，最后算好手臂运动轨迹让机器人执行。

具体做法

数据集构建：
- 来源：8个数据集（如Pandas-70M筛选人类动作、Bridge/Droid机器人演示、Ego4D第一视角操作）；
- 处理：统一动作时长为3秒（16fps），机器人视频加速到人类动作速度，用Gemini生成多版动作标注（如“拿起蓝色杯子”→“用右手拿起桌面上的蓝色塑料杯”），过滤高相机抖动、无清晰手/机器人的视频。
模型训练：
- 第一步（持续预训练）：基于Wan 2.1 14B视频模型权重，移除冗余图像引导通道，用LVP-1M训练60k步（128批大小，200B tokens），学习动作动态与指令遵循；
- 第二步（低相机运动微调）：用低光流视频子集训练10k步，减少生成视频中的无效相机抖动；
- 关键技术：扩散强制Transformer对“历史帧”和“未来帧”用独立噪声水平（如历史帧噪声为0则为图像到视频生成），历史引导结合文本CFG（公式见3.1节），让视频同时贴合初始帧和任务指令。
动作提取与执行：
- 手重建：HaMeR预测每帧手的3D顶点和姿态，MegaSAM提供深度信息修正手的位置漂移，保证时空平滑；
- 重定向：Dex-Retargeting将人类手关节角度映射到机器人手（如灵巧手5指关节），平行夹爪则用GraspNet预测抓取姿势；
- 机器人控制：将手轨迹转成机器人基坐标系，用cuRobo解算手臂关节角度，同步控制手臂和手执行。

基于前人的哪些方法

视频扩散技术：借鉴Wan 2.1 14B（latent视频扩散）、Diffusion Forcing（独立噪声水平控制生成类型）、Rolling Diffusion（滑动窗口处理长视频）；
引导与一致性技术：借鉴History Guidance（历史帧引导提升时空一致性）、Classifier-Free Guidance（CFG，提升指令遵循）；
动作与场景重建技术：借鉴HaMeR（单帧手3D重建）、MegaSAM（动态场景4D重建）、Dex-Retargeting（手动作重定向）；
机器人控制技术：借鉴cuRobo（快速逆运动学求解）、GR-1等模型的“视频生成→动作执行”链路思路（但LVP更侧重零样本泛化）。

实验设置、数据、评估方式

1. 实验数据

训练数据：LVP-1M数据集（140万剪辑，8个来源，涵盖人类/机器人、第一/第三人称、室内/户外场景，表1详细统计）；
测试数据：第三方标注的100个“未知任务”（如“按电梯按钮”“铲咖啡豆”“撕胶带”），场景包括加油站、卫生间等训练中未出现的环境。

2. 实验设置

模型参数：140亿参数（基于DiT架构），训练硬件128张H100 SXM5 GPU，总训练时长14天；
机器人平台：① Franka机械臂+平行夹爪；② Unitree G1机械臂+Inspire灵巧手；
基线模型：视频生成基线（Wan 2.1 14B、Cosmos-Predict 2 14B、Hunyuan I2V 13B）、机器人控制基线（π₀、OpenVLA）。

3. 评估方式

视频计划评估（4级指标，第三方标注）：
- Level 1：手与目标物体正确接触；
- Level 2：最终帧达成任务目标；
- Level 3：动作连续且任务完成（允许轻微物理瑕疵）；
- Level 4：物理一致性完美且无视觉瑕疵；
真实机器人评估：统计任务成功率（如灵巧手“开抽屉”成功率6/10，“擦桌子”成功率8/10），对比基线模型在未知任务中的表现。

提到的同类工作

视频扩散模型：Stable Video Diffusion（视频合成）、Wan 2.1 14B（大规模视频生成）、Cosmos-Predict 2（视频预测）、Hunyuan I2V（图像到视频生成）；
机器人基础模型：
- VLA模型：OpenVLA、π₀、RT-1/RT-2（直接映射多模态输入到动作）；
- 语言-机器人融合模型：PaLM-E（ embodied LLM）、RoboFlamingo（LLM+低阶控制器）；
视频生成用于机器人：Gen2act（视频生成引导机器人控制）、Dreamitate（真实场景视频生成用于策略学习）、Video world models（视频作为机器人模拟器评估器）。

和本文相关性最高的3个文献

Song et al., 2025 (History Guidance)：提出“历史引导”技术，通过对前序帧的引导提升视频生成的时空一致性，是LVP模型中解决“视频抖动”和“指令贴合”的核心基础；
Chen et al., 2024 (Diffusion Forcing)：提出“扩散强制”框架，允许对视频序列的不同部分施加独立噪声水平，支持灵活的图像到视频、视频到视频生成，是LVP实现多类型视频计划生成的关键技术；
Du et al., 2023 (Learning universal policies via text-guided video generation)：首次探索“文本引导视频生成”用于机器人通用策略学习，为LVP“视频计划→机器人动作”的链路提供了早期思路，LVP在此基础上扩展了数据规模和机器人适配能力。