news 2026/4/22 23:36:00

DriveDreamer-Policy:一种统一生成与规划的几何-落地世界-行动模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DriveDreamer-Policy:一种统一生成与规划的几何-落地世界-行动模型

26年4月来自极佳科技、多伦多大学和香港中文大学的论文“DriveDreamer-Policy: A Geometry-Grounded World–Action Model for Unified Generation and Planning”。

近年来,世界-动作模型(WAM)应运而生,旨在连接视觉-语言-动作(VLA)模型和世界模型,统一它们的推理和指令执行能力以及时空世界建模能力。然而,现有的WAM方法通常侧重于对二维外观或潜表征进行建模,几何基础有限——而几何基础对于在物理世界中运行的具身系统至关重要。本文提出DriveDreamer-Policy,一个统一的驾驶世界-动作模型,它将深度生成、未来视频生成和运动规划集成在一个模块化架构中。该模型采用一个大型语言模型来处理语言指令、多视图图像和动作,随后使用三个轻量级生成器分别生成深度、未来视频和动作。通过学习几何感知的世界表征,并利用它在统一的框架内指导未来预测和规划,所提出的模型能够生成更连贯的未来景象和更合理的驾驶动作,同时保持模块化和可控的延迟。在 Navsim v1 和 v2 基准测试集上的实验表明,DriveDreamer-Policy 在闭环规划和世界生成任务上均取得了优异的性能。


驾驶世界动作模型

以驾驶为中心的生成模型利用传感器数据(例如图像)生成未来视频,从而实现可扩展的数据合成和仿真(Hassan et al., 2024; Mousakhan et al., 2025; Bartoccioni et al., 2025; Wang et al., 2024; Zhao et al., 2025; Agarwal et al., 2025; Liang et al., 2025; NVIDIA et al., 2025; Ni et al., 2025; Lu et al., 2025; Zhao et al., 2025; Team et al., 2025)。近年来,融合生成和规划的驾驶世界动作模型已成为一个活跃的研究前沿。 Epona(Zhang,2025)引入了一种自回归扩散世界模型,该模型将因果时间潜信息与每步扩散生成解耦,以支持长时域视频滚动和轨迹规划。ReSim(Yang,2025)在真实日志和模拟器非专家行为的基础上训练一个扩散Transformer世界模拟器,以提高动作跟踪的可靠性,并添加Video2Reward用于奖励估计。DriveVLA-W0(Li,2025)通过添加未来图像世界建模并使用轻量级MoE动作专家来降低延迟,从而克服VLA监督不足的问题。PWM(Zhao,2025)将统一的自回归Transformer视为策略世界模型,该模型执行无动作的未来预测和协同状态-动作预测,以优化规划。 DriveLaW(Xia,2025)通过将视频生成器的潜信息输入扩散轨迹规划器,使想象的未来与控制保持一致,从而统一规划和生成过程。OmniNWM(Li,2025)联合生成全景RGB图像、语义信息、深度信息和3D占用信息,通过Plucker光线映射对轨迹进行条件化处理,并导出基于内在占用信息的密集奖励。UniPGT(Lu,2025)通过混合专家将预训练的VLM与视频生成器集成,从而统一了理解、视频生成和轨迹规划。

DriveDreamer-Policy

这项工作的关键出发点(如图 1所示)是自动驾驶本质上是一个四维物理过程:三维几何形状会随时间演变。因此,一个可操作的世界模型不仅应该合成外观,还应该保留对遮挡推理、距离估计和物理一致性运动至关重要的几何结构。以深度为中心的建模方法在此尤为吸引人:深度信息紧凑,与几何形状直接相关,并且可以作为明确的框架来约束未来的图像/视频生成并为规划决策提供信息。此外,深度基础模型的最新进展(Yang et al., 2024; Lin et al., 2025; Piccinelli et al., 2024, 2026; Xu et al., 2025)表明,无需收集额外数据或从头开始训练深度估计器,即可直接生成高保真度的深度信息。这些进展表明,有机会更有效地驱动世界动作模型:显式地生成深度表示,并研究这如何有利于统一架构内的未来视频生成和运动规划。

为此,提出 DriveDreamer-Policy,这是一个统一的驱动世界动作模型,它联合生成:1)当前场景的基于深度的 3D 几何表示;2)受动作条件影响的未来视频;以及 3)用于规划的未来轨迹。该系统构建于一个用于感知和推理的大型语言模型之上,生成一组紧凑的世界嵌入和动作嵌入。这些嵌入作为多模态生成器的条件:像素空间深度生成器、潜空间视频生成器和动作生成器。重要的是,以深度→视频→动作的方式在查询组之间施加结构化的因果注意掩码:视频查询可以消耗深度上下文,而动作查询可以同时消耗深度和视频上下文。这样就形成一个简单的、单次传递的信息流,同时使视频想象能够受益于 3D 理解,并允许规划利用 3D 结构和预测的未来世界背景。

与现有的世界-动作模型类似,DriveDreamer-Policy使用LLM对驾驶世界知识进行建模,作为感知模块。为了整合多模态生成器,它使用固定大小的潜查询作为交叉注意K,实现生成专家联合预测深度、视频和动作。

DriveDreamer-Policy

整体流程如图 2 所示。首先,多视角图像、语言指令和动作被编码为tokens,并由 LLM 处理,同时处理一组精简的已学习世界和动作查询。生成的世界嵌入和动作嵌入构成一个几何-觉察接口,用于控制三个模块化专家:深度生成器、视频生成器和动作生成器。LLM 负责多模态理解和生成精简的状态表示,而专家则分别生成特定模态的输出(深度、视频和动作),所有这些都由一个固定大小的查询瓶颈进行协调。这种设计源于两个组件的互补优势:LLM 提供稳定的语义和强大的上下文推理能力,而生成式专家则能更好地捕捉多模态和长时域预测中的不确定性。因此,该模型可以以多种模式运行:仅规划模式(仅启用动作专家)、支持想象的规划模式(运行动作以及在需要时生成深度/视频)或用于离线仿真和数据合成的完整生成模式。

世界理解

输入处理。在每个决策步骤中,模型以自然语言指令和同步的多视图 RGB 观测数据作为输入。还将当前动作作为上下文提供给 LLM,从而有助于世界建模和规划。将输入tokens为三个流。首先,使用 LLM 的token化器将指令转换为标准文本tokens。其次,视觉编码器将每个摄像头视图编码为一系列视觉块tokens。第三,使用轻量级动作编码器将动作上下文嵌入到一组动作tokens中。最后,按顺序添加三组固定大小的可学习查询tokens——深度查询、视频查询和动作查询。这种设计产生了一个稳定、紧凑的接口:主干网络始终使用相同的查询槽,下游节点可以读取相应的查询嵌入以生成深度图、未来视频和未来动作。

嵌入生成。所有tokens都由 LLM 处理以生成上下文相关的隐状态。在查询组之间建立因果顺序:深度查询优先,视频查询可以关注深度上下文,动作查询可以同时关注深度和视频上下文。具体来说,在同一时间步内,注意模式满足深度查询→视频查询→动作查询的顺序。这种结构化的掩码提供一个清晰的单次信息流,无需额外的同步或跨分支的迭代细化。

世界和动作预测

深度生成器。生成单目深度图,作为世界动作模型的显式三维框架。深度不仅是用于可视化的几何输出:它提供了一种紧凑的表示,可直接用于下游的视频想象(例如,遮挡和物体边界)和动作规划(例如,自由空间和碰撞距离线索)。其模型使用生成式目标函数而非纯粹的确定性回归头来预测深度​​,从而更好地捕捉单目深度的固有模糊性并保留清晰的深度不连续性。直接在像素空间生成深度信息在这里是可行的,因为深度信息的维度远低于RGB视频,并且无需额外学习编解码器即可保持边界保真度。

如图2左上角所示,深度生成器是一个像素空间DiT,使用标准的流匹配目标进行训练。在训练过程中,对连续的流时间进行采样,并用噪声污染真实深度信息;去噪器以带噪声的深度信息和对应的RGB图像的拼接作为输入,并预测去噪更新。为了使像素空间生成与全局场景语义相关,通过交叉注意机制将深度去噪器与LLM世界深度嵌入联系起来:深度查询世界嵌入作为一种紧凑的全局表示(KV对),引导DiT在恢复细粒度几何细节的同时保持全局结构一致性。这使得深度成为DriveDreamer-Policy中的一种可查询模态:预测的深度可以按需生成,并带有深度嵌入,而深度嵌入则作为上游几何特征,供后续查询组(视频/动作)关注。

视频生成器。对于未来的视频生成,采用一种文本-图像-到-视频的DiT(Peebles&Xie,2023;Wan,2025)(参见图2的中上部分)。给定当前的RGB图像,首先使用VAE将其编码为紧凑的潜表示,并为目标范围初始化一系列带噪声的视频潜表示。与标准文本-到-视频流程中基于文本嵌入的扩散模型不同,基于视频查询tokens生成的 LLM 世界视频嵌入对其进行条件化。这些世界嵌入tokens概括了语言意图、多视角感知和动作上下文,并外部整合了来自深度查询的上游几何线索。视频去噪器通过交叉注意机制关注每个 Transformer 模块中的世界嵌入。为了保留外观、身份和摄像机内容,还使用 CLIP(Radford,2021)模型从当前图像帧中提取一个轻量级的视觉条件,并将其作为显式条件信号注入到去噪器中,与世界视频嵌入连接起来,如流程所示。这种设计使生成器能够紧密地与当前场景和指令动作相关联,同时实现可控的、感知动作的视频生成。

动作生成器。如图 2 右上角所示,动作生成器被实现为一个独立的DiT,它将噪声轨迹映射到一个可行的未来动作序列。它以 LLM 从动作查询tokens生成的动作嵌入为条件,该嵌入聚合指令语义、多视角观测以及上游几何和想象线索。这种条件通过交叉注意机制注入,从而在保持动作头轻量级的同时,仍然能够利用丰富的场景上下文。由于动作生成器不依赖于显式的深度和视频生成,因此它可以独立激活用于规划,同时隐式地受益于预测的未来世界上下文。

其用连续表示(Zhou,2024)(𝑥, 𝑦, cos 𝜃, sin 𝜃) 通过位置和航向对每个轨迹状态进行参数化,从而避免角度回绕并促进平滑的转弯动态。

训练细节

深度归一化。在训练深度生成器之前,将深度归一化到一个稳定的范围内。给定一张深度图,首先应用对数变换,然后计算每张图的百分位数,将其归一化到 [-0.5, 0.5] 的范围内。在推理过程中,根据需要反转变换以恢复度量深度或相对深度。

模型初始化和自适应。对于大型语言模型,用 Qwen3-VL-2B (Bai et al., 2025) 来处理和理解多模态输入。对于深度生成器,用 PPD (Xu et al., 2025) 初始化模型。对于视频生成器,用 Wan-2.1-T2V-1.3B (Wan et al., 2025) 初始化模型,并将其自适应到图像-到-视频的任务。对于深度和视频生成,都以 144 × 256 的空间分辨率进行微调,以降低计算和内存成本。视频训练范围为 9 帧。

训练目标和优化。用联合多任务损失函数在单个阶段训练所有组件:

L = 𝜆_𝑑 L_𝑑 + 𝜆_𝑣 L_𝑣 + 𝜆_𝑎 L_𝑎,

其中,L_𝑑 为深度预测损失,L_𝑣 为视频预测损失,L_𝑎 为轨迹预测损失。用 𝜆_𝑑 = 0.1,其余超参数默认设置为 1.0。训练中使用的深度标签来自现成的深度基础模型 Depth Anything 3 (DA3) (Lin et al., 2025)。


实验设置

数据集和规划指标。用 Navsim 基准数据集(Dauner,2024;Cao,2025)训练和评估方法。该数据集源自真实驾驶日志,并提供同步的环视传感器输入,用于端到端的规划评估。遵循标准的 Navsim 协议,用 navtrain 数据集进行训练,并在 navtest 数据集上进行评估。navtrain 数据集包含 10 万个数据样本,navtest 数据集包含 1.2 万个数据样本,采样频率为 2Hz。Navsim 使用预测驾驶员模型评分 (PDMS) 评估闭环规划性能,v1 版本使用 PDMS,v2 版本使用扩展 PDMS (EPDMS)。PDMS 综合了多个安全和质量指标,包括无责任碰撞、行驶区域合规性、碰撞时间、自我进度和舒适性;EPDMS 则进一步纳入了方向和交通信号灯合规性,以及车道保持和舒适性。对于 Navsim-v2,遵循近期方法中的常见做法(Li et al., 2025; Liao et al., 2025),并在 navtest 数据集上评估 EPDMS,以便进行公平便捷的比较。

世界生成指标。除了规划之外,还评估了生成式专家。视频评估在 Navim 上进行,使用记录的未来 RGB 帧作为真值。深度评估使用 DA3 提供的密集深度目标,这些目标也用于训练。报告绝对相对误差 (AbsRel) 来量化相对深度差异,并报告阈值准确度 (𝛿) 来衡量在指定相对误差范围内准确预测的比例。较高的 𝛿 值和较低的 AbsRel 值表明深度估计性能更佳。对于视频评估,遵循 (Zhao et al., 2025) 的方法,并使用学习的感知图像块相似性 (LPIPS) (Zhang et al., 2018)、峰值信噪比 (PSNR) (Huynh-Thu and Ghanbari, 2008) 和 Fréchet 视频距离 (FVD) (Unterthiner et al., 2019) 来报告预测的未来帧的感知质量和时间一致性。

基线。与涵盖三个类别的强大的 Navsim 基线进行比较。1) 经典的基于视觉的端到端规划器,它们利用视觉模型并将传感器输入映射到轨迹,包括 TransFuser (Chitta et al., 2022)、UniAD (Hu et al., 2023) 和 DiffusionDrive (Liao et al., 2025)。 2) 基于视觉-语言-动作的规划器,使用大型语言模型,并以tokens或基于扩散的专家模型预测轨迹,包括以下方法:DriveVLA-W0 (Li et al., 2025)、AutoVLA (Zhou et al., 2025) 和 Recogdrive (Li et al., 2025)。3) 基于世界模型的规划器,将预测能力融入规划中,包括 LaW (Li et al., 2025)、DrivingGPT (Xu et al., 2024)、WoTE (Li et al., 2025)、Epona (Zhang et al., 2025)、FSDrive (Zeng et al., 2025) 和 PWM (Zhao et al., 2025)。所有基线均以其官方 Navsim 性能报告。

实现细节。将动作编码器实现为一个带有层归一化的两层多层感知器(MLP)(Ba et al., 2016)。用8个NVIDIA H2O GPU,采用AdamW优化器(Loshchilov and Hutter, 2019),学习率为1×10⁻⁵,以32的批大小,在单阶段训练DriveDreamer-Policy模型10万步。除非另有说明,所有实验均使用相同的查询配置(64个深度查询tokens、64个视频查询tokens和8个动作查询 tokens)。用Navsim训练数据,未使用其他数据集,也未在初始化的主干网络之外进行额外的预训练。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 23:32:43

前端开发者构建AI应用实战指南

1. 前端开发者如何构建AI应用:从入门到实战作为一名长期奋战在前端领域的开发者,我清晰地记得第一次尝试将AI能力整合进Web应用时的迷茫。面对TensorFlow.js的文档、各种API接口和模型部署选项,那种既兴奋又无从下手的感觉至今难忘。经过两年…

作者头像 李华
网站建设 2026/4/22 23:30:21

046、使用单元测试框架测试FreeRTOS任务与模块:从一次深夜调试说起

046、使用单元测试框架测试FreeRTOS任务与模块:从一次深夜调试说起 凌晨两点,示波器上的波形还在跳动。我盯着屏幕里那个偶尔丢失的传感器数据包,已经排查了三小时硬件链路,最后才发现问题出在一个自以为“足够简单”的FreeRTOS任务——它在高优先级任务频繁抢占时,漏掉了…

作者头像 李华
网站建设 2026/4/22 23:28:23

HttpServletRequest 接口/cookie/session知识点

1.这个接口生成的对象是谁封装的?1. 本质:它是一个接口HttpServletRequest 本身不是一个具体类,而是 Servlet 规范(Java EE / Jakarta EE)定义的接口。你可以理解成:Java 制定了一个 “请求说明书”&#x…

作者头像 李华
网站建设 2026/4/22 23:28:21

为什么很多人现在找 AI 工具,会先看国产入口?

最近一个挺明显的变化,是很多人找 AI 工具时,不再默认先去看国外那几个名字了。这个变化和“支持国货”关系没有那么大,更多还是使用顺序变了。大家现在更在意的是今天能不能把材料看完、把内容写完、把任务做完,而不是先围着模型…

作者头像 李华