DriveDreamer-Policy：一种统一生成与规划的几何-落地世界-行动模型-平芜编程栈

26年4月来自极佳科技、多伦多大学和香港中文大学的论文“DriveDreamer-Policy: A Geometry-Grounded World–Action Model for Unified Generation and Planning”。

近年来，世界-动作模型（WAM）应运而生，旨在连接视觉-语言-动作（VLA）模型和世界模型，统一它们的推理和指令执行能力以及时空世界建模能力。然而，现有的WAM方法通常侧重于对二维外观或潜表征进行建模，几何基础有限——而几何基础对于在物理世界中运行的具身系统至关重要。本文提出DriveDreamer-Policy，一个统一的驾驶世界-动作模型，它将深度生成、未来视频生成和运动规划集成在一个模块化架构中。该模型采用一个大型语言模型来处理语言指令、多视图图像和动作，随后使用三个轻量级生成器分别生成深度、未来视频和动作。通过学习几何感知的世界表征，并利用它在统一的框架内指导未来预测和规划，所提出的模型能够生成更连贯的未来景象和更合理的驾驶动作，同时保持模块化和可控的延迟。在 Navsim v1 和 v2 基准测试集上的实验表明，DriveDreamer-Policy 在闭环规划和世界生成任务上均取得了优异的性能。

驾驶世界动作模型

以驾驶为中心的生成模型利用传感器数据（例如图像）生成未来视频，从而实现可扩展的数据合成和仿真（Hassan et al., 2024; Mousakhan et al., 2025; Bartoccioni et al., 2025; Wang et al., 2024; Zhao et al., 2025; Agarwal et al., 2025; Liang et al., 2025; NVIDIA et al., 2025; Ni et al., 2025; Lu et al., 2025; Zhao et al., 2025; Team et al., 2025）。近年来，融合生成和规划的驾驶世界动作模型已成为一个活跃的研究前沿。 Epona（Zhang，2025）引入了一种自回归扩散世界模型，该模型将因果时间潜信息与每步扩散生成解耦，以支持长时域视频滚动和轨迹规划。ReSim（Yang，2025）在真实日志和模拟器非专家行为的基础上训练一个扩散Transformer世界模拟器，以提高动作跟踪的可靠性，并添加Video2Reward用于奖励估计。DriveVLA-W0（Li，2025）通过添加未来图像世界建模并使用轻量级MoE动作专家来降低延迟，从而克服VLA监督不足的问题。PWM（Zhao，2025）将统一的自回归Transformer视为策略世界模型，该模型执行无动作的未来预测和协同状态-动作预测，以优化规划。 DriveLaW（Xia，2025）通过将视频生成器的潜信息输入扩散轨迹规划器，使想象的未来与控制保持一致，从而统一规划和生成过程。OmniNWM（Li，2025）联合生成全景RGB图像、语义信息、深度信息和3D占用信息，通过Plucker光线映射对轨迹进行条件化处理，并导出基于内在占用信息的密集奖励。UniPGT（Lu，2025）通过混合专家将预训练的VLM与视频生成器集成，从而统一了理解、视频生成和轨迹规划。

DriveDreamer-Policy

这项工作的关键出发点（如图 1所示）是自动驾驶本质上是一个四维物理过程：三维几何形状会随时间演变。因此，一个可操作的世界模型不仅应该合成外观，还应该保留对遮挡推理、距离估计和物理一致性运动至关重要的几何结构。以深度为中心的建模方法在此尤为吸引人：深度信息紧凑，与几何形状直接相关，并且可以作为明确的框架来约束未来的图像/视频生成并为规划决策提供信息。此外，深度基础模型的最新进展（Yang et al., 2024; Lin et al., 2025; Piccinelli et al., 2024, 2026; Xu et al., 2025）表明，无需收集额外数据或从头开始训练深度估计器，即可直接生成高保真度的深度信息。这些进展表明，有机会更有效地驱动世界动作模型：显式地生成深度表示，并研究这如何有利于统一架构内的未来视频生成和运动规划。

为此，提出 DriveDreamer-Policy，这是一个统一的驱动世界动作模型，它联合生成：1）当前场景的基于深度的 3D 几何表示；2）受动作条件影响的未来视频；以及 3）用于规划的未来轨迹。该系统构建于一个用于感知和推理的大型语言模型之上，生成一组紧凑的世界嵌入和动作嵌入。这些嵌入作为多模态生成器的条件：像素空间深度生成器、潜空间视频生成器和动作生成器。重要的是，以深度→视频→动作的方式在查询组之间施加结构化的因果注意掩码：视频查询可以消耗深度上下文，而动作查询可以同时消耗深度和视频上下文。这样就形成一个简单的、单次传递的信息流，同时使视频想象能够受益于 3D 理解，并允许规划利用 3D 结构和预测的未来世界背景。

与现有的世界-动作模型类似，DriveDreamer-Policy使用LLM对驾驶世界知识进行建模，作为感知模块。为了整合多模态生成器，它使用固定大小的潜查询作为交叉注意K，实现生成专家联合预测深度、视频和动作。

DriveDreamer-Policy

整体流程如图 2 所示。首先，多视角图像、语言指令和动作被编码为tokens，并由 LLM 处理，同时处理一组精简的已学习世界和动作查询。生成的世界嵌入和动作嵌入构成一个几何-觉察接口，用于控制三个模块化专家：深度生成器、视频生成器和动作生成器。LLM 负责多模态理解和生成精简的状态表示，而专家则分别生成特定模态的输出（深度、视频和动作），所有这些都由一个固定大小的查询瓶颈进行协调。这种设计源于两个组件的互补优势：LLM 提供稳定的语义和强大的上下文推理能力，而生成式专家则能更好地捕捉多模态和长时域预测中的不确定性。因此，该模型可以以多种模式运行：仅规划模式（仅启用动作专家）、支持想象的规划模式（运行动作以及在需要时生成深度/视频）或用于离线仿真和数据合成的完整生成模式。

世界理解

输入处理。在每个决策步骤中，模型以自然语言指令和同步的多视图 RGB 观测数据作为输入。还将当前动作作为上下文提供给 LLM，从而有助于世界建模和规划。将输入tokens为三个流。首先，使用 LLM 的token化器将指令转换为标准文本tokens。其次，视觉编码器将每个摄像头视图编码为一系列视觉块tokens。第三，使用轻量级动作编码器将动作上下文嵌入到一组动作tokens中。最后，按顺序添加三组固定大小的可学习查询tokens——深度查询、视频查询和动作查询。这种设计产生了一个稳定、紧凑的接口：主干网络始终使用相同的查询槽，下游节点可以读取相应的查询嵌入以生成深度图、未来视频和未来动作。

嵌入生成。所有tokens都由 LLM 处理以生成上下文相关的隐状态。在查询组之间建立因果顺序：深度查询优先，视频查询可以关注深度上下文，动作查询可以同时关注深度和视频上下文。具体来说，在同一时间步内，注意模式满足深度查询→视频查询→动作查询的顺序。这种结构化的掩码提供一个清晰的单次信息流，无需额外的同步或跨分支的迭代细化。

世界和动作预测

深度生成器。生成单目深度图，作为世界动作模型的显式三维框架。深度不仅是用于可视化的几何输出：它提供了一种紧凑的表示，可直接用于下游的视频想象（例如，遮挡和物体边界）和动作规划（例如，自由空间和碰撞距离线索）。其模型使用生成式目标函数而非纯粹的确定性回归头来预测深度，从而更好地捕捉单目深度的固有模糊性并保留清晰的深度不连续性。直接在像素空间生成深度信息在这里是可行的，因为深度信息的维度远低于RGB视频，并且无需额外学习编解码器即可保持边界保真度。

如图2左上角所示，深度生成器是一个像素空间DiT，使用标准的流匹配目标进行训练。在训练过程中，对连续的流时间进行采样，并用噪声污染真实深度信息；去噪器以带噪声的深度信息和对应的RGB图像的拼接作为输入，并预测去噪更新。为了使像素空间生成与全局场景语义相关，通过交叉注意机制将深度去噪器与LLM世界深度嵌入联系起来：深度查询世界嵌入作为一种紧凑的全局表示（KV对），引导DiT在恢复细粒度几何细节的同时保持全局结构一致性。这使得深度成为DriveDreamer-Policy中的一种可查询模态：预测的深度可以按需生成，并带有深度嵌入，而深度嵌入则作为上游几何特征，供后续查询组（视频/动作）关注。

视频生成器。对于未来的视频生成，采用一种文本-图像-到-视频的DiT（Peebles&Xie，2023；Wan，2025）（参见图2的中上部分）。给定当前的RGB图像，首先使用VAE将其编码为紧凑的潜表示，并为目标范围初始化一系列带噪声的视频潜表示。与标准文本-到-视频流程中基于文本嵌入的扩散模型不同，基于视频查询tokens生成的 LLM 世界视频嵌入对其进行条件化。这些世界嵌入tokens概括了语言意图、多视角感知和动作上下文，并外部整合了来自深度查询的上游几何线索。视频去噪器通过交叉注意机制关注每个 Transformer 模块中的世界嵌入。为了保留外观、身份和摄像机内容，还使用 CLIP（Radford，2021）模型从当前图像帧中提取一个轻量级的视觉条件，并将其作为显式条件信号注入到去噪器中，与世界视频嵌入连接起来，如流程所示。这种设计使生成器能够紧密地与当前场景和指令动作相关联，同时实现可控的、感知动作的视频生成。

动作生成器。如图 2 右上角所示，动作生成器被实现为一个独立的DiT，它将噪声轨迹映射到一个可行的未来动作序列。它以 LLM 从动作查询tokens生成的动作嵌入为条件，该嵌入聚合指令语义、多视角观测以及上游几何和想象线索。这种条件通过交叉注意机制注入，从而在保持动作头轻量级的同时，仍然能够利用丰富的场景上下文。由于动作生成器不依赖于显式的深度和视频生成，因此它可以独立激活用于规划，同时隐式地受益于预测的未来世界上下文。

其用连续表示（Zhou，2024）(𝑥, 𝑦, cos 𝜃, sin 𝜃) 通过位置和航向对每个轨迹状态进行参数化，从而避免角度回绕并促进平滑的转弯动态。

训练细节

深度归一化。在训练深度生成器之前，将深度归一化到一个稳定的范围内。给定一张深度图，首先应用对数变换，然后计算每张图的百分位数，将其归一化到 [-0.5, 0.5] 的范围内。在推理过程中，根据需要反转变换以恢复度量深度或相对深度。

模型初始化和自适应。对于大型语言模型，用 Qwen3-VL-2B (Bai et al., 2025) 来处理和理解多模态输入。对于深度生成器，用 PPD (Xu et al., 2025) 初始化模型。对于视频生成器，用 Wan-2.1-T2V-1.3B (Wan et al., 2025) 初始化模型，并将其自适应到图像-到-视频的任务。对于深度和视频生成，都以 144 × 256 的空间分辨率进行微调，以降低计算和内存成本。视频训练范围为 9 帧。

训练目标和优化。用联合多任务损失函数在单个阶段训练所有组件：

L = 𝜆_𝑑 L_𝑑 + 𝜆_𝑣 L_𝑣 + 𝜆_𝑎 L_𝑎,

其中，L_𝑑 为深度预测损失，L_𝑣 为视频预测损失，L_𝑎 为轨迹预测损失。用 𝜆_𝑑 = 0.1，其余超参数默认设置为 1.0。训练中使用的深度标签来自现成的深度基础模型 Depth Anything 3 (DA3) (Lin et al., 2025)。

实验设置

数据集和规划指标。用 Navsim 基准数据集（Dauner，2024；Cao，2025）训练和评估方法。该数据集源自真实驾驶日志，并提供同步的环视传感器输入，用于端到端的规划评估。遵循标准的 Navsim 协议，用 navtrain 数据集进行训练，并在 navtest 数据集上进行评估。navtrain 数据集包含 10 万个数据样本，navtest 数据集包含 1.2 万个数据样本，采样频率为 2Hz。Navsim 使用预测驾驶员模型评分 (PDMS) 评估闭环规划性能，v1 版本使用 PDMS，v2 版本使用扩展 PDMS (EPDMS)。PDMS 综合了多个安全和质量指标，包括无责任碰撞、行驶区域合规性、碰撞时间、自我进度和舒适性；EPDMS 则进一步纳入了方向和交通信号灯合规性，以及车道保持和舒适性。对于 Navsim-v2，遵循近期方法中的常见做法（Li et al., 2025; Liao et al., 2025），并在 navtest 数据集上评估 EPDMS，以便进行公平便捷的比较。

世界生成指标。除了规划之外，还评估了生成式专家。视频评估在 Navim 上进行，使用记录的未来 RGB 帧作为真值。深度评估使用 DA3 提供的密集深度目标，这些目标也用于训练。报告绝对相对误差 (AbsRel) 来量化相对深度差异，并报告阈值准确度 (𝛿) 来衡量在指定相对误差范围内准确预测的比例。较高的 𝛿 值和较低的 AbsRel 值表明深度估计性能更佳。对于视频评估，遵循 (Zhao et al., 2025) 的方法，并使用学习的感知图像块相似性 (LPIPS) (Zhang et al., 2018)、峰值信噪比 (PSNR) (Huynh-Thu and Ghanbari, 2008) 和 Fréchet 视频距离 (FVD) (Unterthiner et al., 2019) 来报告预测的未来帧的感知质量和时间一致性。

基线。与涵盖三个类别的强大的 Navsim 基线进行比较。1) 经典的基于视觉的端到端规划器，它们利用视觉模型并将传感器输入映射到轨迹，包括 TransFuser (Chitta et al., 2022)、UniAD (Hu et al., 2023) 和 DiffusionDrive (Liao et al., 2025)。 2) 基于视觉-语言-动作的规划器，使用大型语言模型，并以tokens或基于扩散的专家模型预测轨迹，包括以下方法：DriveVLA-W0 (Li et al., 2025)、AutoVLA (Zhou et al., 2025) 和 Recogdrive (Li et al., 2025)。3) 基于世界模型的规划器，将预测能力融入规划中，包括 LaW (Li et al., 2025)、DrivingGPT (Xu et al., 2024)、WoTE (Li et al., 2025)、Epona (Zhang et al., 2025)、FSDrive (Zeng et al., 2025) 和 PWM (Zhao et al., 2025)。所有基线均以其官方 Navsim 性能报告。

实现细节。将动作编码器实现为一个带有层归一化的两层多层感知器（MLP）（Ba et al., 2016）。用8个NVIDIA H2O GPU，采用AdamW优化器（Loshchilov and Hutter, 2019），学习率为1×10⁻⁵，以32的批大小，在单阶段训练DriveDreamer-Policy模型10万步。除非另有说明，所有实验均使用相同的查询配置（64个深度查询tokens、64个视频查询tokens和8个动作查询 tokens）。用Navsim训练数据，未使用其他数据集，也未在初始化的主干网络之外进行额外的预训练。