news 2026/3/25 23:25:24

【论文自动阅读】Large Video Planner Enables Generalizable Robot Control

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Large Video Planner Enables Generalizable Robot Control

快速了解部分

基础信息(英文):

  1. 题目:Large Video Planner Enables Generalizable Robot Control
  2. 时间年月:December 2025(arXiv:2512.15840v1 [cs.RO] 17 Dec 2025)
  3. 机构名:MIT (Massachusetts Institute of Technology)、UC Berkeley (University of California, Berkeley)、Harvard University
  4. 3个英文关键词:Large Video Planner (LVP)、Generalizable Robot Control、Video Generative Pre-training

1句话通俗总结本文干了什么事情

研究者提出“大型视频规划器(LVP)”,通过大规模人类活动与机器人演示视频预训练,让模型能根据任务指令和初始场景生成零样本视频计划,再提取视频中的动作并适配到真实机器人(如灵巧手、平行夹爪),实现跨未知任务和环境的机器人控制泛化。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 现有机器人基础模型(如VLA模型)依赖多模态大语言模型(MLLM)扩展,但机器人动作数据稀缺,导致泛化能力差,难以应对未知任务和场景;
  2. 静态图文对(image-text pairs)无法捕捉物理世界的时空动态(状态-动作序列),与机器人行为的自然对齐性弱;
  3. 传统视频生成模型优化目标是内容创作,易出现模态坍缩,缺乏物理一致性和指令遵循能力,无法直接用于机器人规划。

核心方法:关键技术、模型或研究设计(简要)

  1. 构建LVP-1M数据集:整理140万条互联网尺度视频剪辑,涵盖人类活动(如日常操作)和机器人演示(如夹爪抓取),经动作标注、时空对齐和质量过滤,聚焦“动作-centric”数据;
  2. 设计LVP视频基础模型:基于 latent 扩散框架,结合“扩散强制Transformer”(灵活处理图像到视频、视频到视频生成)和“历史引导”(提升时空一致性),输入为任务指令+初始帧,输出为任务完成的视频计划;
  3. 动作提取与重定向:用HaMeR(手重建)、MegaSAM(4D场景重建)提取视频中人体动作,通过Dex-Retargeting适配到不同机器人,结合cuRobo(逆运动学)生成机器人控制信号。

深入了解部分

相比前人创新在哪里

  1. 模态创新:首次以“视频”为机器人基础模型的核心模态,而非MLLM扩展,直接利用视频天然包含的时空动态(状态-动作序列),更贴合机器人行为需求;
  2. 规模与泛化创新:首个基础模型尺度的“生成式机器人视频规划器”,开源模型与数据集,支持零样本跨任务泛化(如从“撕胶带”到“开冰箱”),而非局限于同类物体/场景;
  3. 技术融合创新:结合“扩散强制”(独立噪声水平实现多类型生成)与“历史引导+文本CFG”,解决传统视频生成的物理一致性差、指令遵循弱问题,同时通过两阶段训练(持续预训练+低相机运动微调)降低视频中的无效相机抖动,适配机器人执行;
  4. 落地链路创新:端到端打通“视频生成→动作提取→机器人适配”,支持灵巧手(多自由度)和平行夹爪(低自由度)等不同形态机器人,实现真实场景执行。

解决方法/算法的通俗解释,以及具体做法

通俗解释

把机器人控制拆成“先想象再执行”两步:第一步让模型“看海量视频学做事”(如看人类撕胶带、机器人开抽屉),学会根据任务(如“撕透明胶带”)和初始画面(胶带位置)生成“虚拟演示视频”;第二步把视频里的“手动作”转成机器人能懂的指令——比如先重建视频中手的3D姿势,再调整成机器人手的关节角度,最后算好手臂运动轨迹让机器人执行。

具体做法
  1. 数据集构建

    • 来源:8个数据集(如Pandas-70M筛选人类动作、Bridge/Droid机器人演示、Ego4D第一视角操作);
    • 处理:统一动作时长为3秒(16fps),机器人视频加速到人类动作速度,用Gemini生成多版动作标注(如“拿起蓝色杯子”→“用右手拿起桌面上的蓝色塑料杯”),过滤高相机抖动、无清晰手/机器人的视频。
  2. 模型训练

    • 第一步(持续预训练):基于Wan 2.1 14B视频模型权重,移除冗余图像引导通道,用LVP-1M训练60k步(128批大小,200B tokens),学习动作动态与指令遵循;
    • 第二步(低相机运动微调):用低光流视频子集训练10k步,减少生成视频中的无效相机抖动;
    • 关键技术:扩散强制Transformer对“历史帧”和“未来帧”用独立噪声水平(如历史帧噪声为0则为图像到视频生成),历史引导结合文本CFG(公式见3.1节),让视频同时贴合初始帧和任务指令。
  3. 动作提取与执行

    • 手重建:HaMeR预测每帧手的3D顶点和姿态,MegaSAM提供深度信息修正手的位置漂移,保证时空平滑;
    • 重定向:Dex-Retargeting将人类手关节角度映射到机器人手(如灵巧手5指关节),平行夹爪则用GraspNet预测抓取姿势;
    • 机器人控制:将手轨迹转成机器人基坐标系,用cuRobo解算手臂关节角度,同步控制手臂和手执行。

基于前人的哪些方法

  1. 视频扩散技术:借鉴Wan 2.1 14B(latent视频扩散)、Diffusion Forcing(独立噪声水平控制生成类型)、Rolling Diffusion(滑动窗口处理长视频);
  2. 引导与一致性技术:借鉴History Guidance(历史帧引导提升时空一致性)、Classifier-Free Guidance(CFG,提升指令遵循);
  3. 动作与场景重建技术:借鉴HaMeR(单帧手3D重建)、MegaSAM(动态场景4D重建)、Dex-Retargeting(手动作重定向);
  4. 机器人控制技术:借鉴cuRobo(快速逆运动学求解)、GR-1等模型的“视频生成→动作执行”链路思路(但LVP更侧重零样本泛化)。

实验设置、数据、评估方式

1. 实验数据
  • 训练数据:LVP-1M数据集(140万剪辑,8个来源,涵盖人类/机器人、第一/第三人称、室内/户外场景,表1详细统计);
  • 测试数据:第三方标注的100个“未知任务”(如“按电梯按钮”“铲咖啡豆”“撕胶带”),场景包括加油站、卫生间等训练中未出现的环境。
2. 实验设置
  • 模型参数:140亿参数(基于DiT架构),训练硬件128张H100 SXM5 GPU,总训练时长14天;
  • 机器人平台:① Franka机械臂+平行夹爪;② Unitree G1机械臂+Inspire灵巧手;
  • 基线模型:视频生成基线(Wan 2.1 14B、Cosmos-Predict 2 14B、Hunyuan I2V 13B)、机器人控制基线(π₀、OpenVLA)。
3. 评估方式
  • 视频计划评估(4级指标,第三方标注):
    • Level 1:手与目标物体正确接触;
    • Level 2:最终帧达成任务目标;
    • Level 3:动作连续且任务完成(允许轻微物理瑕疵);
    • Level 4:物理一致性完美且无视觉瑕疵;
  • 真实机器人评估:统计任务成功率(如灵巧手“开抽屉”成功率6/10,“擦桌子”成功率8/10),对比基线模型在未知任务中的表现。

提到的同类工作

  1. 视频扩散模型:Stable Video Diffusion(视频合成)、Wan 2.1 14B(大规模视频生成)、Cosmos-Predict 2(视频预测)、Hunyuan I2V(图像到视频生成);
  2. 机器人基础模型
    • VLA模型:OpenVLA、π₀、RT-1/RT-2(直接映射多模态输入到动作);
    • 语言-机器人融合模型:PaLM-E( embodied LLM)、RoboFlamingo(LLM+低阶控制器);
  3. 视频生成用于机器人:Gen2act(视频生成引导机器人控制)、Dreamitate(真实场景视频生成用于策略学习)、Video world models(视频作为机器人模拟器评估器)。

和本文相关性最高的3个文献

  1. Song et al., 2025 (History Guidance):提出“历史引导”技术,通过对前序帧的引导提升视频生成的时空一致性,是LVP模型中解决“视频抖动”和“指令贴合”的核心基础;
  2. Chen et al., 2024 (Diffusion Forcing):提出“扩散强制”框架,允许对视频序列的不同部分施加独立噪声水平,支持灵活的图像到视频、视频到视频生成,是LVP实现多类型视频计划生成的关键技术;
  3. Du et al., 2023 (Learning universal policies via text-guided video generation):首次探索“文本引导视频生成”用于机器人通用策略学习,为LVP“视频计划→机器人动作”的链路提供了早期思路,LVP在此基础上扩展了数据规模和机器人适配能力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 8:11:16

从千篇一律到专属定制:我的网易云音乐蜕变记

从千篇一律到专属定制:我的网易云音乐蜕变记 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 每天打开那个熟悉的蓝色界面,我总觉得少了点什么。直到有一天&…

作者头像 李华
网站建设 2026/3/18 5:39:41

AD原理图生成PCB中的差分规则设定

从AD原理图到PCB:差分对规则设定的实战指南在高速电路设计中,一个看似不起眼的细节——差分对是否被正确识别和处理——往往决定了整块PCB能否稳定工作。尤其是在USB、以太网、MIPI等高速接口密集的现代嵌入式系统中,信号完整性问题频发&…

作者头像 李华
网站建设 2026/3/24 11:50:09

OpenCore Legacy Patcher实战指南:让旧Mac完美升级新版系统

OpenCore Legacy Patcher实战指南:让旧Mac完美升级新版系统 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 如果你手中的Mac设备硬件依然良好,却因…

作者头像 李华
网站建设 2026/3/24 10:14:45

5个简单步骤掌握Sketchfab模型获取:终极完整指南

5个简单步骤掌握Sketchfab模型获取:终极完整指南 【免费下载链接】sketchfab sketchfab download userscipt for Tampermonkey by firefox only 项目地址: https://gitcode.com/gh_mirrors/sk/sketchfab 还在为无法获取Sketchfab上的精美3D模型而烦恼吗&…

作者头像 李华
网站建设 2026/3/24 19:00:40

BetterNCM安装器完整指南:网易云插件一键管理终极方案

BetterNCM安装器完整指南:网易云插件一键管理终极方案 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 厌倦了复杂的插件安装流程?BetterNCM安装器让这一切变得简…

作者头像 李华
网站建设 2026/3/24 15:19:32

BetterNCM安装器:网易云音乐插件管理终极方案

BetterNCM安装器:网易云音乐插件管理终极方案 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer BetterNCM安装器是一款专为网易云音乐PC版用户设计的智能插件管理工具&#x…

作者头像 李华