理想一篇OCC世界模型：全新轨迹条件稀疏占用世界模型SparseWorld-TC-平芜编程栈

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Jiayuan Du等

编辑 | 自动驾驶之心

端到端自动驾驶预测技术正迎来革命性突破！传统方法依赖鸟瞰图（BEV）表示或离散令牌化，这些技术虽然在一定程度上推动了行业发展，但本质上限制了模型对复杂时空依赖的捕捉能力。特别是在长时预测和动态场景中，如何平衡精度与效率成为制约技术落地的核心挑战。如果仅靠VAE编码或BEV先验，往往难以兼顾细粒度细节和实时性需求。近年来，基于注意力的Transformer架构在语言和视觉领域的成功，为自动驾驶世界模型提供了全新思路——能否直接利用稀疏表示绕过中间表示，实现更灵活的时空建模？这是一个值得深入探索的方向。

现有4D占用预测方法大多面临两大本质局限：一是过度依赖VAE等离散令牌化技术，导致表征容量受限，细节信息丢失；二是BEV表示引入的显式几何先验，虽然简化了问题形式化，但严重限制了特征交互的灵活性。例如，OccWorld和RenderWorld采用VQ-VAE编码场景，虽然简化了生成过程，却牺牲了连续空间的细节表达能力；而基于BEV的方法如TPVFormer虽然在某些任务上有效，但难以处理长时预测中的多模态演化问题。针对这些行业痛点，同济大学与理想汽车联合团队经过深入研究，提出了SparseWorld-TC——一种全新的轨迹条件稀疏占用世界模型。该模型创新性地摒弃了传统BEV和离散令牌，直接通过稀疏查询和注意力机制实现端到端的4D占用预测，在nuScenes基准上实现了多项技术突破！

论文链接：https://arxiv.org/pdf/2511.22039
Github链接：https://github.com/MrPicklesGG/SparseWorld-TC

一、自动驾驶世界模型的技术演进与核心挑战

1.1 世界模型的基本概念与发展历程

世界模型是理解环境动态的核心框架，对于在物理世界中运行的AI系统至关重要。从控制理论中的状态空间模型到现代深度学习方法，世界模型经历了漫长的发展历程。在自动驾驶领域，世界模型需要具备预测物理环境演化的能力，这被认为是实现真正智能驾驶的核心技术之一。

早期的方法主要基于物理规则和简单传感器模型，随着深度学习的发展，数据驱动的方法逐渐成为主流。近年来，基于占用的世界模型因其在自动驾驶和机器人领域的直接适用性而备受关注。这类模型能够生成时间一致的传感器观测，为后续的决策规划提供重要支持。

1.2 当前技术路线的局限性分析

现有的世界模型方法主要存在三个层次的局限性。在表示层面，离散化表示（如VQ-VAE）虽然降低了建模复杂度，但不可避免地导致信息损失。在结构层面，BEV表示引入了过强的几何先验，限制了模型对复杂场景的适应能力。在生成范式层面，自回归方法虽然能捕获时序依赖，但存在误差累积问题，而扩散方法虽然生成质量高，但计算成本较大。

具体到4D占用预测任务，这些局限性表现得更为明显。由于驾驶场景的复杂性和安全性要求，模型需要在有限的计算资源下实现准确的长期预测。传统方法在平衡这一矛盾时往往捉襟见肘，亟需新的技术路线突破。

1.3 稀疏表示的技术优势与可行性

稀疏表示作为一种新兴的技术路线，为解决上述问题提供了新的思路。与密集的体素网格不同，稀疏表示只对场景中实际存在的区域进行建模，这显著降低了计算复杂度。同时，稀疏表示避免了离散化带来的信息损失，能够更好地保持场景的连续特性。

从理论角度看，驾驶场景本质上是稀疏的——大部分空间是空闲的，只有少部分区域存在物体。这一特性为稀疏表示的应用提供了天然优势。近年来，随着3D稀疏感知模型的发展，稀疏表示在目标检测、分割等任务中已展现出强大潜力，为其在世界模型中的应用奠定了技术基础。

二、SparseWorld-TC的核心创新：架构设计与技术细节

2.1 整体架构设计理念

SparseWorld-TC的创新之处在于其纯注意力驱动的架构设计。与依赖手工设计令牌化器或中间表示的传统方法不同，该模型采用端到端的方式直接对占用世界进行建模。场景被表示为一组可学习的特征嵌入，它们之间的交互通过注意力机制进行中介。

这种设计理念的突破性在于：首先，它避免了离散令牌化带来的表示能力限制；其次，它绕过了BEV表示的几何约束，使模型能够更灵活地捕获时空特征；最后，采用类似VGGT的前馈架构，能够在单次前向传播中预测未来占用，显著提升了推理效率。

2.2 稀疏占用表示的具体实现

在技术实现层面，SparseWorld-TC采用了一种基于锚点的稀疏占用表示方法。每个锚点由一组随机初始化的3D点和相关的特征向量组成。具体而言，对于单帧占用表示，我们定义：

其中（C维类别概率向量）。

这种表示的初始化过程经过精心设计：中心点周围随机初始化，特征向量初始化为零。这种设计确保了表示的全面性和灵活性。

2.3 轨迹表示与条件机制

轨迹条件机制是SparseWorld-TC的另一大创新。在自动驾驶中，自车的规划轨迹为预测世界模型提供了重要的条件信号。我们将未来轨迹τ参数化为离散状态序列：

每个状态封装了在时间t的ego运动状态。在我们的实现中，每个状态包含车辆的平面位置(x,y)、航向角θ和时间戳t本身，为条件世界模型提供了紧凑而富有表现力的表示。

世界模型F的数学形式化表示为：

其中表示所有未来帧的初始状态表示，代表过去个时间步的传感器观测历史，τ是给定的轨迹。这一公式化使模型能够集成过去上下文和未来意图，以生成物理一致的未来场景。

2.4 时空融合架构的详细设计

时空融合架构是SparseWorld-TC的核心技术组成部分，其设计充分考虑了多模态数据的有效整合。整个架构基于纯注意力机制，实现了传感器观测、占用先验和轨迹信息的高效融合。

2.4.1 轨迹时空嵌入

轨迹表示包含每个路径点的位置和时间戳。为了保持灵活性，我们不假设路径点之间的均匀时间采样，而是直接嵌入每个路径点的独立位置和时间戳，以适应各种可能的规划输出。

位置嵌入通过相对姿态变换捕获轨迹的空间特征。路径点的3D坐标首先进行相对姿态变换以进行后续融合，然后通过多层感知机（MLP）映射到目标特征维度。相对姿态变换的齐次矩阵也使用MLP映射到特征维度，最终为特征配备空间属性和ego轨迹信息。

时间嵌入使用经典的sin-cosine编码来捕获轨迹的相对时间位置关系。时空嵌入受运动感知层归一化（MLN）的启发，在位置嵌入和时间嵌入的基础上实现时空信息融合。具体设计两个线性层来隐式学习相邻帧之间的仿射变换，这一学习过程依赖于位置嵌入提供的空间属性线索和时间嵌入捕获的相对时间关系信息。

2.4.2 传感器嵌入与可变形注意力

可变形注意力在3D稀疏感知中得到广泛应用。在我们的架构中，每个锚点集沿x、y、z方向的均值和标准差作为采样偏移的基础。

每个中心使用相机内参、外参和ego姿态投影到骨干网络（如ResNet或ViT）的多尺度图像特征图中。如果一个查询由于视野重叠投影到多个视图，我们通过对所有m个视图的采样特征进行平均来聚合。每个锚点中心从过去的T'帧收集特征。为了编码时间上下文，我们添加一个由全连接层处理的正弦时间嵌入以提供运动线索。

2.4.3 完全注意力融合机制

完全注意力融合机制是SparseWorld-TC的最核心创新。如公式4所示，世界模型可以重新表述为：

这一公式提供了我们世界模型的紧凑表述：所有相关特征通过标准注意力直接交互。我们采用前馈、纯基于注意力的Transformer架构，如图3所示。

对于每个未来帧t，占用嵌入通过交叉注意力参与过去传感器嵌入。更新后的占用特征然后通过帧级自注意力与轨迹嵌入融合。最后，时态注意力块在所有未来帧上应用自注意力，联合优化占用嵌入集合以捕获长距离时空依赖。我们堆叠帧和时态注意力模块并多次应用，逐步将随机初始化的3D锚点优化为未来T帧的准确占用预测。

2.5 训练策略与优化算法

2.5.1 随机集成策略

虽然nuScenes占用世界模型基准评估1-3秒的预测范围，但一些研究考虑更长的未来（例如长达10秒）。这促使我们设计一个灵活的模型，以适应不同的预测需求，支持在任意时间范围内甚至不同时间间隔的未来占用预测。我们通过随机集成策略实现这一目标，该策略在不改变网络架构的情况下增强了训练模型的泛化能力。

随机集成策略的具体实现如下：我们假设最大预测范围T。在训练期间，我们随机选择目标序列长度L，其中L∈{2,…,T}，并使用相应的L个未来占用帧监督模型。由于没有规定固定的时间步长，场景演化完全由编码时间和位置上下文的轨迹嵌入控制。这种灵活的监督方案使模型能够适应不同的预测需求，并提高了整体性能。

2.5.2 损失函数设计

损失函数的设计直接影响了模型的性能。我们提取每个真实占用体素的中心作为目标点，并优化Chamfer距离损失以使预测点分布与目标点对齐。该损失函数在点云处理和占用建模中被广泛采用，因为它有效测量预测点云之间的相似性。

Chamfer距离的数学定义为：

其中。遵循[38]的方法，匹配的目标点还提供语义标签。因此，我们使用标准焦点分类损失监督语义预测，产生整体目标函数：

这种损失设计确保了模型在几何准确性和语义一致性方面的平衡优化。

三、实验设计与评估体系

3.1 性能评估与对比分析

在自动驾驶4D占用预测领域，SparseWorld-TC通过创新的稀疏表示方法实现了突破性进展。对于评估，我们采用标准几何交并比（IoU）和语义平均交并比（mIoU）指标，评估指标的设计充分考虑了自动驾驶任务的需求。几何IoU关注占用预测的几何准确性，而语义mIoU评估类别预测的准确性。这两个指标的结合全面反映了模型在几何和语义层面的性能。

方法分类与对比分析

我们将对比方法分为两大类别进行深入分析：

基于真值占用的方法包括OccWorld-O、OccLLaMA-O等，这些方法虽然性能较高，但需要预先计算的占用真值作为输入，在实际部署中存在局限性。例如，I2-World在使用真值占用输入时达到39.73%的mIoU，但其实际应用价值受到限制。

基于摄像头输入的方法更贴近实际应用场景。在这一类别中，我们的SparseWorld-TC表现出色。特别是SparseWorld-TC-Large*版本（集成DINOv3骨干网络），在mIoU指标上达到29.89%，超越了许多基于真值占用的方法，这充分证明了我们方法的实用性和先进性。

3.2 实验设置与实现细节

3.2.1 数据集与评估协议

实验基于广泛采用的Occ3D-nuScenes基准，该数据集包含1000个驾驶场景，每个场景时长20秒，包含多传感器数据（摄像头、激光雷达等）。我们严格遵循文献[7,22,31,47,51,53]的评估协议：

训练/验证/测试分割：700个场景用于训练，150个用于验证，150个用于测试，确保评估的统计显著性。
评估指标：主要采用几何交并比（IoU）和语义平均交并比（mIoU）。
预测范围：短期预测（1-3秒）和长期预测（扩展至8秒），以验证模型在时序上的鲁棒性。

3.2.2 模型配置与训练策略

SparseWorld-TC的实现涵盖以下关键细节：

时序设置：历史观测使用过去2秒的数据（T'=2），未来预测范围T设置为3秒（短期）和8秒（长期），与现有基准[7,53]保持一致。
稀疏锚点配置：
- Small版本：每帧N=600个锚点，每个锚点包含M=128个3D点，计算效率优先。
- Large版本：N=4800，M=16，通过增加锚点密度提升精度。
骨干网络：基础版使用ResNet-50，增强版集成DINOv3-Base，以验证大规模预训练模型的可迁移性。
训练参数：在8个NVIDIA H20 GPU上训练70个epoch，总批次大小8，使用AdamW优化器（初始学习率2×10^{-4}，余弦退火调度）。
损失函数：结合Chamfer距离损失（）和焦点分类损失（），确保几何和语义预测的平衡优化。

四、实验结果与深度分析

4.1 主要结果与性能对比

在nuScenes基准上的评估结果显示了SparseWorld-TC的显著优势。如表1所示，我们的方法在多项指标上实现了突破性性能。

具体而言，SparseWorld-TC-Large在平均mIoU上达到26.42%，比先前最优方法COME提升18.7%；平均IoU达49.21%，提升11.7%。小规模版本在效率与性能间取得良好平衡，推理速度达9.35 FPS，适合实时应用。

4.2 长时预测能力分析

长时预测是评估世界模型性能的关键指标。我们将预测期从3秒延长到8秒，结果如表2所示，我们的方法在长时预测任务中表现出色。

SparseWorld-TC-Large在8秒预测任务中，平均mIoU和IoU分别达到22.33%和45.35%，显著优于对比方法。特别是在4秒后的预测中，性能衰减明显慢于其他方法，这证明了我们方法在长时预测中的稳定性。

4.3 基于轨迹条件的预测

在基于轨迹条件的未来占据预测方面，我们提出的SparseWorld-TC同样具有出色的表现。

如图6所示的分岔路口，我们可视化了直行和左转两种不同轨迹条件下的占据预测结果，SparseWorld-TC在保持场景几何信息的时空一致性的同时，精确预测场景沿给定轨迹的演化。

五、结论

SparseWorld-TC的研究工作通过引入轨迹条件稀疏占用世界模型，为端到端自动驾驶预测任务提供了创新性解决方案。本论文的核心贡献在于成功设计了一种纯注意力驱动的架构，彻底摒弃了传统BEV表示和离散令牌化的限制，实现了更灵活高效的时空建模。实验结果表明，该方法在nuScenes基准测试中取得了突破性性能，特别是在长时预测任务中展现出了卓越的稳定性与准确性。

六、扩展应用：前馈高斯预测与传感器级生成

SparseWorld-TC的架构设计不仅限于占用预测，还具备扩展到传感器级观测生成的潜力。我们进一步探索了模型在前馈高斯预测方面的应用，这一扩展为自监督训练和场景重建提供了新的可能性。

前馈高斯预测的技术实现

受前馈高斯方法[29,30,35]的启发，我们在原始模型基础上集成了额外的MLP解码器，用于从潜在特征直接生成高斯参数。具体实现包括以下几个关键组件：

高斯参数解码网络：在原有的占用解码基础上，我们增加了专门的MLP分支，用于预测3D高斯分布的参数。这些参数包括：

中心位置偏移量（Δx,Δy,Δz）
协方差矩阵参数（旋转和缩放因子）
颜色特征和透明度值

微分渲染机制：利用3D高斯溅射（3DGS）技术的可微分渲染器，将预测的高斯参数转换为前视图图像。这一过程支持端到端的梯度传播，使得模型能够通过比较渲染结果与真实图像来优化参数预测。

训练过程中，我们计算渲染图像与真实图像之间的L1损失：

其中H和W分别表示图像的高度和宽度。

重建与预测结果可视化

在训练阶段，模型展现了出色的重建能力。如图7所示，通过高斯溅射技术，SparseWorld-TC能够从稀疏图像特征生成高质量的前视图重建结果。这一能力不仅验证了高斯表示的有效性，也为自监督训练奠定了基础。

更重要的是，模型在未来的传感器观测预测方面表现出强大潜力。如图8所示，在验证集上的未来观测预测结果显示了良好的时间一致性和视觉质量。

技术优势与应用前景

这一扩展工作带来了几个重要优势：

自监督学习能力：通过可微分渲染，模型可以实现自监督训练，减少对大量标注数据的依赖。这在实际应用场景中具有重要意义，因为获取精确的3D标注通常成本高昂。
多模态输出支持：高斯表示天然支持多种输出模态，包括深度图、语义分割图等。这为下游任务提供了丰富的环境理解信息。
实时性能潜力：3D高斯溅射技术以其高效的渲染速度著称，结合SparseWorld-TC的前馈架构，整个系统具备实现实时预测的潜力。

在实际应用方面，这一技术可以用于：

自动驾驶仿真：生成逼真的驾驶场景用于算法测试和验证
预测性规划：为规划模块提供未来场景的视觉预览，支持更安全的决策制定
数据增强：在训练过程中生成额外的训练样本，提升模型的泛化能力

与其他扩展的协同效应

前馈高斯预测与轨迹条件生成形成了良好的互补关系。通过结合轨迹条件机制，模型能够根据不同的未来路径生成对应的传感器观测，为"what-if"分析提供了强大工具。例如，在分叉路口场景中，模型可以分别生成直行和转弯对应的未来观测，帮助系统评估不同决策的后果。

此外，这一扩展还与长期预测能力紧密结合。在8-10秒的预测范围内，高斯表示能够更好地保持场景的视觉一致性，避免传统体素方法中常见的模糊或失真问题。

局限性与未来方向

尽管前馈高斯预测展现了良好潜力，但仍存在一些挑战需要进一步研究：

计算复杂度：虽然3DGS渲染效率较高，但高斯参数预测和优化过程仍需要相当的计算资源。未来工作需要探索更高效的参数化方法。
动态建模：当前方法对高度动态场景的建模能力仍有提升空间，特别是在处理快速移动物体或复杂交互时。
多传感器融合：如何有效融合摄像头、激光雷达等多种传感器数据，进一步提升预测的准确性和鲁棒性，是未来的重要研究方向。

总体而言，前馈高斯预测的引入显著扩展了SparseWorld-TC的应用范围，为自动驾驶环境理解提供了更加全面和实用的解决方案。这一技术路线的发展有望推动世界模型从传统的几何预测向更加综合的场景理解和生成方向发展。

自动驾驶之心

自动驾驶之心招人啦！