快速了解部分
基础信息(英文):
- 题目:Closing the Train-Test Gap in World Models for Gradient-Based Planning
- 时间年月:2025年12月
- 机构名:Columbia University, New York University
- 3个英文关键词:world models, gradient-based planning, train-test gap
1句话通俗总结本文干了什么事情
本文提出在线世界建模和对抗性世界建模两种微调方法,缩小世界模型训练(预测下一个状态)与测试(优化动作序列)的目标差距,使基于梯度的规划在机器人操纵和导航任务中性能接近或超越传统方法,且计算时间仅为传统方法的10%。
研究痛点:现有研究不足 / 要解决的具体问题
- 世界模型训练目标与测试用途不匹配:训练时以“预测下一个状态”为目标,测试时却需“优化动作序列”,存在训练-测试差距;
- 基于梯度的规划易陷入分布外状态:规划过程中探索的动作序列可能超出训练时的专家轨迹分布,导致模型预测误差累积;
- 优化景观不友好:世界模型诱导的动作级优化景观存在大量局部最小值或平坦区域,阻碍梯度优化的有效性。
核心方法:关键技术、模型或研究设计(简要)
- 在线世界建模(Online World Modeling):用环境模拟器修正基于梯度规划生成的轨迹,将修正后的轨迹加入训练集微调模型,扩展模型熟悉的潜态空间;
- 对抗性世界建模(Adversarial World Modeling):对专家轨迹的动作和潜态添加扰动(基于FGSM方法),在扰动数据上微调模型,平滑优化损失景观。
深入了解部分
相比前人创新在哪里
- 针对性解决训练-测试差距:首次明确聚焦世界模型“训练预测目标”与“测试规划用途”的核心矛盾,提出数据合成类微调方案;
- 双维度优化梯度规划性能:分别从“扩展模型适用状态分布”(在线方法)和“改善优化景观平滑性”(对抗性方法)解决梯度规划的两大痛点;
- 高效适配高维场景:基于预训练视觉嵌入(DINOv2),在潜空间中操作,无需精确环境状态测量,且计算效率远超传统搜索类方法(如CEM);
- 鲁棒性设计:对抗性方法无需依赖模拟器,适用于模拟成本高或不可行的场景,在线方法则通过模拟器反馈精准修正分布偏移。
解决方法/算法的通俗解释,以及具体做法
通俗解释
- 在线世界建模:让模型“在实战中学习”——规划时生成的动作轨迹可能偏离训练数据,用真实环境模拟器算出这些轨迹的实际结果,再用这些“修正后的实战数据”重新训练模型,让模型熟悉规划时可能遇到的新状态;
- 对抗性世界建模:给模型“加练难题”——在训练数据中故意加入小扰动(比如轻微改变动作或状态),制造模型预测的“难点”,让模型在这些难题上训练,从而让优化过程更顺畅,不易陷入局部最优。
具体做法
在线世界建模(算法2):
- 从专家轨迹中采样初始状态和目标状态,用基于梯度的规划(GBP)生成动作序列;
- 用环境模拟器执行该动作序列,得到真实状态轨迹,通过编码器转换为潜态;
- 将“初始潜态+规划动作+真实潜态”组成的新轨迹加入训练集,微调世界模型;
- 迭代上述过程,扩展训练数据的分布覆盖范围。
对抗性世界建模(算法3):
- 从训练集中采样轨迹批次,计算动作和潜态的标准差,确定扰动半径;
- 用快速梯度符号法(FGSM)生成动作和潜态的扰动(最大化模型预测误差的方向),并裁剪扰动幅度;
- 将“扰动后的潜态+扰动后的动作+原始下一个潜态”组成对抗样本,用于微调世界模型;
- 采用单步扰动生成(FGSM),平衡性能与计算效率。
基于前人的哪些方法
- 世界模型基础框架(Ha & Schmidhuber, 2018):基于“状态-动作-下一个状态”的预测范式;
- 潜态世界模型设计(Zhou et al., 2025的DINO-WM):采用预训练视觉编码器(DINOv2)将高维图像映射为低维潜态;
- 基于梯度的规划(SV et al., 2023):利用世界模型的可微性,通过梯度下降优化动作序列;
- 对抗训练技术(Goodfellow et al., 2014的FGSM;Madry et al., 2018的PGD):通过扰动数据提升模型鲁棒性;
- 数据集聚合思想(Ross et al., 2011的DAgger):通过在线生成数据扩展训练集,缓解分布偏移;
- 传统规划方法(Rubinstein & Kroese, 2004的CEM;Williams et al., 2017的MPPI):作为实验对比基准。
实验设置、数据、评估方式
实验设置
- 任务:3个核心任务(PushT机器人推块、PointMaze迷宫导航、Wall跨房间导航),2个扩展机器人操纵任务(Rope绳操纵、Granular颗粒操纵);
- 世界模型架构:主实验用DINO-WM(基于DINOv2编码器+ViT预测器), ablation实验用IRIS(VQ-VAE+Transformer);
- 规划方法:基于梯度的规划(GBP,采用GD和Adam优化器)、传统搜索类方法(CEM、MPPI、GradCEM);
- 控制模式:开环规划(一次性生成完整动作序列)、模型预测控制(MPC,滚动优化,仅执行前K步动作后重新规划)。
数据
- 数据集来源:复用DINO-WM(Zhou et al., 2025)的公开数据集,包括专家轨迹和随机轨迹;
- 数据规模:PushT(18500条轨迹)、PointMaze(2000条)、Wall(1920条)、Rope/Granular(各1000条);
- 轨迹长度:100-300步(PushT)、100步(PointMaze)、50步(Wall)、5步(Rope/Granular)。
评估方式
- 性能指标:导航任务用“成功率”(到达目标状态的比例),操纵任务用“Chamfer距离”(预测关键点与目标关键点的距离,越小越好);
- 效率指标:墙钟时间(Wall Clock Time),对比不同方法的规划耗时;
- 模型误差:训练轨迹与规划轨迹的世界模型预测误差差(衡量训练-测试差距的缩小程度);
- 消融实验:验证初始化策略、扰动方法(FGSM vs PGD)、超参数(扰动半径、缩放因子)的影响。
提到的同类工作
- 潜态世界模型研究:Hafner et al. (2019b)(从像素学习潜态动力学)、Bardes et al. (2024)(联合嵌入预测架构JEPAs);
- 规划方法:搜索类(Rubinstein & Kroese, 2004的CEM;Williams et al., 2017的MPPI)、梯度类(SV et al., 2023)、混合类(Bharadhwaj et al., 2020的CEM+梯度优化);
- 训练-测试差距解决:Lambert et al. (2020)(指出模型基强化学习的目标不匹配)、Ross et al. (2011的DAgger)(在线数据集聚合);
- 对抗训练与鲁棒性:Mejia et al. (2019)(对抗训练对梯度的影响)、Zhang et al. (2025)(策略的对抗扰动优化)。
和本文相关性最高的3个文献
- Zhou, G., Pan, H., LeCun, Y., & Pinto, L. (2025). Dino-wm: World models on pre-trained visual features enable zero-shot planning.(提供实验所用的基础世界模型DINO-WM和数据集,是本文的直接对比基准);
- SV, J., Jalagam, S., LeCun, Y., & Sobal, V. (2023). Gradient-based planning with world models.(提出基于梯度的规划框架,是本文要改进的核心方法);
- Ross, S., Gordon, G., & Bagnell, D. (2011). A reduction of imitation learning and structured prediction to no-regret online learning.(提出数据集聚合思想,本文在线世界建模的核心灵感来源)。