扩散模型驱动3D生成：从2D先验到3D空间扩散的技术演进-平芜编程栈

1. 项目概述：扩散模型如何重塑3D内容创作

最近几年，如果你关注AIGC（人工智能生成内容）领域，一定被各种“一句话生成3D模型”的演示刷过屏。从一段简单的文字描述，比如“一只戴着眼镜、正在打字的卡通猫”，就能生成一个可以360度旋转、带有纹理的3D模型，这听起来像是魔法。但在这背后，推动这场3D内容创作革命的核心技术之一，正是从图像生成领域“降维打击”而来的扩散模型。

我最初接触3D生成时，传统方法要么依赖专业建模软件手动雕琢，费时费力；要么使用基于GAN或VAE的早期生成模型，结果往往粗糙、缺乏细节且难以控制。直到扩散模型在2D图像上证明了其生成高质量、多样化内容的惊人能力，大家才开始思考：这套强大的“去噪”哲学，能否直接套用到更复杂的3D数据上？答案是肯定的，但道路远比想象中曲折。

3D数据不像2D图像那样是规整的像素矩阵。一个3D物体可以用点云（一堆空间坐标）、网格（由顶点和面构成）、体素（3D像素）或者神经辐射场（NeRF）这类隐式函数来表示。每种表示都有其优势和软肋：点云简单但缺乏表面信息；网格利于渲染但拓扑结构固定；NeRF渲染质量高但训练和推理慢。如何让扩散模型理解并生成这些形态各异的数据，是第一个大难题。更棘手的是，高质量、大规模的3D数据集远比ImageNet这样的2D图像集稀缺，这直接限制了模型学习复杂3D先验知识的能力。

尽管如此，社区已经探索出了几条鲜明的技术路径，并在物体生成、场景构建、甚至3D编辑等方面取得了快速进展。简单来说，当前的主流方法可以归结为三大流派：借用现成的2D扩散模型“老师”来指导3D生成、训练专门的2D多视图扩散模型，以及直接在3D表示空间里训练扩散模型。每种方法都在效率、质量和通用性上做着不同的权衡。接下来，我将为你深入拆解这些方法的原理、技术细节以及在实际操作中会遇到的那些“坑”，希望能为你理解或进入这一领域提供一张实用的地图。

2. 核心原理：扩散模型与3D表示的基石

在深入各种技术流派之前，我们必须打好两个基础：一是理解扩散模型究竟是如何工作的，二是弄清楚3D数据有哪些常见的“包装形式”。这就像学做菜前，得先认识灶具和了解食材特性。

2.1 扩散模型：从噪声中创造秩序的哲学

扩散模型的核心思想非常直观：它模拟了一个逐步加噪直至完全混乱，再学习如何一步步去噪恢复原貌的过程。你可以把它想象成一张清晰的画作被逐渐泼上墨点，直到变成一片纯黑（前向过程），然后训练一个模型学会如何从这片纯黑中，一步步擦除墨点，最终还原出画作（反向过程）。

前向过程是一个固定的马尔可夫链。假设我们有一个干净的数据样本x0（可以是一张图片，也可以是一个3D点云），我们逐步向其中添加高斯噪声。在每一步t，我们根据一个预设的噪声调度表β_t，得到稍微更嘈杂的版本x_t。数学上表示为q(x_t | x_{t-1})。经过足够多的步骤T后，x_T就几乎变成了一个纯高斯噪声，所有原始信息都被掩盖。

反向过程则是我们要学习的核心。我们需要训练一个神经网络（通常是U-Net结构）来预测每一步所添加的噪声ϵ，或者等价地，预测去噪后的数据x_{t-1}。训练目标是最小化预测噪声与真实添加噪声之间的差距。一旦这个网络训练完成，我们就可以从纯噪声x_T开始，反复应用这个学习到的去噪步骤，最终采样出一个来自数据分布的新样本x_0。

在3D生成中，这个x_t和x_0可以是任何形式的3D数据表示。例如，x_t可以是一个被噪声污染的点云坐标集合，也可以是一张在多视角下渲染出的带有噪声的2D图片。扩散模型的强大之处在于，只要我们能定义好数据的噪声添加和去除方式，并提供足够的训练数据，它就能学会该数据分布的复杂结构。

2.2 3D数据表示：选择你的“建模语言”

正如前言所述，3D世界没有像2D图像（RGB矩阵）那样的标准格式。选择哪种表示形式，直接决定了后续扩散模型的设计、训练效率和生成质量。以下是几种主流的“建模语言”：

显式表示：

点云：最简单直接，就是一组(x, y, z)坐标，可能附带颜色或法向量。它存储高效，但缺乏连续的表面信息，直接生成时容易产生不均匀分布或孔洞。
网格：由顶点、边和面构成，是计算机图形学中最常用的表示，能直接被游戏引擎或渲染管线使用。但其离散的拓扑结构使得基于梯度的优化（如扩散训练）比较棘手。
体素：将3D空间划分为均匀的小立方体网格，每个体素有一个值（如占有概率）。它规则整齐，易于用3D卷积处理，但内存消耗随分辨率立方增长，难以表达高细节。

隐式表示（神经场）：这是近年来最火热的方向。它用一个神经网络（如一个小型MLP）将3D坐标(x, y, z)映射到某个属性，比如符号距离函数（SDF）的值（该点到物体表面的带符号距离），或者像NeRF那样映射到颜色和密度。NeRF通过体积渲染可以生成极其逼真的新视角图像，但它的查询和渲染速度很慢。隐式表示内存效率高，能表达任意分辨率的细节，并且是连续可微的，非常适合与扩散模型结合进行优化。

混合与新兴表示：为了兼顾效率与质量，混合表示应运而生。

三平面（Triplane）：这是EG3D等模型推广的高效表示。它用三个轴对齐的特征图（XY, YZ, XZ平面）来表征3D空间。对于任意3D点，将其投影到这三个平面上获取特征，再聚合起来送入一个小解码器得到最终属性。它像2D图像一样规整，便于用2D卷积网络处理，同时又具有3D意识。
3D高斯泼溅（3D Gaussian Splatting）：这是2023年杀出的一匹黑马。它将场景表示为一系列带有位置、协方差（控制形状和朝向）、颜色和不透明度的3D高斯椭球。渲染时通过“泼溅”到2D屏幕，实现了实时的高质量渲染。由于其显式的性质和可微的渲染器，它正迅速成为许多3D生成任务（如DreamGaussian）的首选表示。

注意：表示的选择没有绝对优劣，只有是否适合。如果你的目标是快速生成可交互的网格，那么基于SDF或DMTet（深层行进四面体）的隐式表示可能更合适。如果你追求照片级的渲染质量且可以接受较慢的渲染，NeRF是很好的选择。如果速度是首要考量，3D高斯泼溅是目前最前沿的方向。

3. 技术路径一：利用预训练2D扩散模型进行3D生成

这是目前让文本生成3D效果最惊艳、也是入门门槛相对较低的一类方法。其核心思想非常巧妙：既然我们没有足够好的3D扩散模型，但已经有了强大的、能理解文本并生成高质量图像的2D扩散模型（如Stable Diffusion），何不把它当作一个“评判老师”来指导3D模型的优化？

3.1 核心引擎：分数蒸馏采样（SDS）

这类方法的基石是分数蒸馏采样（Score Distillation Sampling, SDS），最早由DreamFusion提出。我们可以把它理解为一个“通过2D图片反馈来雕刻3D形状”的过程。

流程拆解：

初始化一个3D表示：比如一个随机初始化的NeRF或一组3D高斯。
随机渲染：从一个随机视角，将这个3D场景渲染成一张2D图片g(θ)，其中θ是3D场景的参数。
请教“老师”：将这张渲染图输入到冻结的、预训练的2D扩散模型中。我们不是让扩散模型直接输出图片，而是让它告诉我们：“如果我想让这张图看起来更像你的文本提示y，我应该朝哪个方向修改？”
具体操作：在扩散模型的潜空间或像素空间，对渲染图加噪至某一步t，得到x_t。然后让扩散模型去噪，预测出噪声ϵ_φ(x_t; y, t)。SDS损失的关键在于，它计算预测噪声与实际添加的噪声之间的差异，并将这个差异作为梯度，通过可微渲染器反向传播回3D参数θ。
更新3D模型：根据梯度更新θ，使得从这个视角渲染的图片，在扩散模型看来更符合文本描述。
循环往复：不断重复步骤2-5，从大量随机视角进行渲染和优化。最终，这个3D模型的所有视角渲染图，都会落入预训练扩散模型所理解的“与文本匹配的图片”分布中，从而得到一个看似3D一致的模型。

为什么有效？预训练的2D扩散模型已经学习了海量图文对，蕴含了丰富的视觉先验和几何常识（例如，一个“猫”有特定的形状、纹理，从侧面看应该是什么样）。SDS通过多视角的2D监督，将这些知识“蒸馏”到了3D表示中。

3.2 代表性工作与实战技巧

DreamFusion & SJC：开山之作。DreamFusion用NeRF作为3D表示，SJC用了体素网格。它们证明了SDS的可行性，但存在Janus（多面）问题（生成物体多个面都是正面）、几何粗糙、优化慢（数小时）等问题。
Magic3D：采用了由粗到细的两阶段策略。先用低分辨率潜空间扩散模型快速优化一个粗糙的NeRF，然后提取出网格，再用高分辨率扩散模型优化纹理细节。这大大提升了生成质量。
DreamGaussian：革命性地将3D表示换成了3D高斯泼溅。得益于高斯泼溅的显式性质和高效渲染，它将优化时间从小时级缩短到分钟级，是实用化道路上的重要里程碑。
Perp-Neg：专门解决Janus问题。它发现问题的根源在于2D扩散模型在训练时没有视角概念。Perp-Neg通过调整SDS中的提示词权重，在优化不同视角时，强化与该视角相关的正面提示词，同时抑制可能导致多面的负面提示词，有效生成了视角一致的模型。

实操心得与避坑指南：

提示工程至关重要：SDS严重依赖文本提示。模糊的提示会导致结果不稳定。通常需要添加“高清”、“3D模型”、“专业渲染”、“工作室灯光”等后缀来提高质量。对于特定视角，可能需要使用视角相关的提示词（如“front view”，“side view”）。
优化不稳定是常态：SDS的梯度噪声很大，容易陷入局部最优或产生漂浮物。常用的技巧包括：梯度裁剪、使用指数移动平均（EMA）来平滑参数更新、以及逐步增加扩散步数t（初期用大t探索宏观结构，后期用小t雕琢细节）。
几何与纹理的权衡：单独使用SDS往往得到“棉花糖”似的几何体，缺乏坚实的表面。一个有效技巧是引入几何正则化，比如使用法向图平滑损失，或者像Fantasia3D那样，将几何（通过法向图）和纹理（通过RGB图）分开用不同的SDS损失进行优化。
内存与速度的博弈：使用NeRF意味着每次渲染都要进行昂贵的体积渲染和反向传播。Instant-NGP这类多分辨率哈希编码器能极大加速NeRF的训练。如果追求极致速度，3D高斯泼溅是当前最优选。

3.3 从单图到3D：图像引导的生成与编辑

除了从文本生成，这类方法也能从单张或多张图片进行3D重建或编辑。

Zero-1-to-3：它微调了Stable Diffusion，使其能够根据输入图片和相对相机位姿，生成该物体在新视角下的图片。有了这个多视图生成模型，就可以通过SDS或直接使用生成的多视图图片进行3D重建（如使用NeRF或高斯泼溅）。
Magic123：它同时利用了两种先验：Zero-1-to-3提供的几何先验（相对准确但纹理简单）和原始Stable Diffusion提供的纹理先验（细节丰富但几何不准）。通过一个两阶段优化策略，它取得了质量和一致性上的平衡。
Instruct-NeRF2NeRF：3D编辑的典范。给定一个训练好的NeRF场景和一条编辑指令（如“把它变成黄金做的”），它利用InstructPix2Pix这样的图像编辑扩散模型，迭代地编辑NeRF渲染出的图片，并用这些编辑后的图片作为新监督数据来更新NeRF本身，从而实现3D场景的语义编辑。

提示：基于预训练模型的方法最大优势是零样本能力，无需3D训练数据，直接利用互联网规模的2D知识。但其最大缺点是每生成一个场景都需要漫长的优化过程，无法做到快速推理。这引出了下一类方法的需求。

4. 技术路径二：面向新视角合成的2D空间扩散

第一类方法本质上是“优化”，不是“生成”。能否训练一个模型，直接输入文本或单图，快速（前向传播）输出多张一致的新视角图片，然后再用传统的多视图立体算法（如COLMAP）或快速重建模型（如大型重建模型LRM）转换成3D呢？这就是第二类方法的目标。

4.1 核心思想：让2D扩散具备3D意识

这类方法不再使用现成的2D扩散模型，而是从头训练或微调一个扩散模型，但其训练数据是多视图图像对。目标是让模型学会3D一致性，即生成的任意视角图片，在几何和外观上都是相容的，可以无缝拼接成一个3D整体。

关键技术：

相机姿态条件化：这是最关键的一步。在模型输入中，除了噪声图像和文本提示，还要显式地加入目标视角的相机参数（通常用旋转和平移向量表示）。模型需要学会根据这个姿态信息来生成对应视角的图片。
注意力机制改造：为了加强不同视角间的信息交互，许多工作改造了U-Net中的注意力层。
- 交叉注意力：在生成目标视角时，让模型同时“看到”一个或多个已知的输入视角（作为条件），通过交叉注意力机制聚合信息。代表工作如Zero-1-to-3。
- 极线注意力：在自注意力层中融入几何约束。对于目标图像上的一个点，在源图像上沿着其极线搜索对应特征，这能更好地保证几何一致性。代表工作如MVDream、SyncDreamer。
联合去噪：与其一张张独立生成多视图，不如让模型同时去噪多个视角的噪声图像，并在去噪过程中通过注意力机制让它们相互“沟通”，强制达成一致。Viewset Diffusion 是这方面的代表。

4.2 工作流程与典型架构

一个典型的流程如下：给定一个文本提示或一张输入图片，模型首先根据某种策略采样一组相机姿态（例如，环绕物体的等距离视角）。然后，模型并行或串行地生成这些视角下的图片。由于生成过程是3D一致的，这些图片可以直接喂给一个多视图立体视觉（MVS）或基于学习的高速重建器（如LRM, GRM, InstantMesh），在几秒到几十秒内生成3D网格或高斯泼溅表示。

代表模型解析：

MVDream：它微调Stable Diffusion，在注意力层中注入相机姿态嵌入，并同时去噪四个视角的图片（前、后、左、右）。它通过共享自注意力层来实现跨视角信息交换，生成了质量高且一致性好的多视图图片。
SyncDreamer：它采用了一个同步的多视图去噪架构。不是一次性生成所有视图，而是递归地进行：已去噪的视图作为条件，来生成下一个视图。它使用了一个视图池来聚合所有已生成视图的信息，确保了全局一致性。
One-2-3-45：它结合了大规模3D先验。首先用一个轻量级模型从单图快速生成一个粗糙的3D表示（如稀疏点云），然后用一个大型多视图扩散模型生成更多、更一致的虚拟视图，最后用一个高效的重建模块输出精细网格。它在速度和质量间取得了很好平衡。

实操中的挑战：

数据需求：这类方法需要大量物体中心的多视图数据（如Objaverse, MVImgNet）进行训练。数据的质量和规模直接决定了模型的泛化能力。
视角分布偏差：互联网上的图片多为正面视角，导致模型对侧面、背面的生成能力弱。需要在训练数据构造或损失函数设计上做平衡。
重建模块的误差累积：即使生成的多视图图片在视觉上一致，微小的颜色或几何差异在经过SFM或学习式重建时也会被放大，导致重建表面有噪声或孔洞。因此，生成模型与重建模型的协同设计很重要。

5. 技术路径三：在3D表示空间直接进行扩散

这是最直接、也最具潜力的“正统”方法：直接在3D数据上训练扩散模型。这意味着我们有一个3D数据集，然后训练一个模型学习这些3D数据的分布，从而能够从噪声中直接采样出3D模型。这实现了真正的“一步生成”。

5.1 两阶段训练范式

由于原始的3D数据（如网格、点云）非结构化且高维，直接在其上应用扩散模型非常困难。因此，主流方法普遍采用一个两阶段范式：

第一阶段：学习一个紧凑的3D潜空间
- 目标：将高维、复杂的原始3D数据（如网格顶点、体素）编码到一个低维、结构化的潜表示z中。
- 方法：通常训练一个变分自编码器（VAE）或自编码器（AE）。编码器将3D数据压缩为潜码，解码器从潜码重建出3D数据。重建损失确保潜空间保留了足够的信息。
- 表示选择：潜表示z的形式非常关键，它决定了第二阶段扩散模型的效率和效果。常见的选择有：
  - 三平面（Triplane）特征：将3D信息压缩到三个2D特征图上，便于使用成熟的2D卷积U-Net进行扩散。
  - 潜体素网格：将3D体素网格压缩到更低分辨率。
  - 潜点集或形状码：一个一维的向量。
第二阶段：在潜空间上训练扩散模型
- 目标：在学到的潜空间z上训练一个扩散模型，学习该潜空间的分布p(z)。
- 方法：使用标准的DDPM或DDIM框架。前向过程对潜码z0加噪，反向过程用一个神经网络（通常是U-Net的变体）去噪。
- 条件生成：如果需要文本或图像条件生成，可以在去噪网络中引入交叉注意力机制，将文本CLIP嵌入或图像特征作为条件输入。
推理：采样时，先从扩散模型采样一个潜码z，然后用第一阶段的解码器将其解码成最终的3D模型（网格、NeRF等）。

5.2 不同3D表示的扩散模型实践

5.2.1 基于三平面的扩散这是目前最流行的范式之一，因为三平面兼具了2D的规整性和3D的信息容量。

NFD：在ShapeNet等数据集上训练一个三平面自编码器，然后在三平面特征上训练2D扩散模型。生成时，扩散模型输出三平面，解码器将其转换为占据网格。
Rodin：专注于生成3D数字人头部。它使用一个基础扩散模型生成低分辨率三平面，再用一个上采样扩散模型提升细节。它采用了3D感知的卷积来加强三个平面间的特征交互。
SSD-NeRF：提出了单阶段扩散NeRF，将自编码和扩散学习统一到一个框架中。其损失函数同时包含渲染损失（确保解码器能正确渲染）和扩散去噪损失（学习潜空间先验）。它支持无条件生成和基于图像的重建。

5.2.2 基于隐式表示（如NeRF/SDF）的扩散

DiffRF：直接在显式的辐射场体素网格上应用扩散模型。它使用一个时间条件化的3D U-Net进行去噪，并将渲染损失整合到扩散训练中，使得模型能直接生成可用于体积渲染的辐射场。
SDFusion：在符号距离函数（SDF）的潜空间上训练条件扩散模型。SDF能方便地转换为网格。它支持多模态条件输入（文本、图像、部分形状），并通过后续的SDS优化进一步提升纹理质量。
HyperDiffusion：一个非常有趣的思路，它在MLP的权重空间进行扩散。即，每个3D形状对应一个MLP网络的权重集。扩散模型学习这些权重集的分布。生成时，采样一组权重，就得到了一个能表示3D形状的MLP。这种方法非常灵活，甚至可以扩展到4D（动态3D）生成。

5.2.3 基于显式表示（如点云）的扩散

Point-E：OpenAI的工作，专注于从文本生成点云。它采用级联生成：先用一个扩散模型根据文本生成一张低分辨率预览图，再用另一个扩散模型根据预览图生成一个稀疏点云，最后用一个上采样模型增加点云密度。
LION：在点云的潜空间进行分层扩散。它使用一个分层VAE，同时编码全局形状潜码和局部点潜码，并在这两个潜空间上都进行扩散，实现了对点云细节和整体结构的精细控制。

5.2.4 基于3D高斯泼溅的扩散这是最新的前沿方向。直接生成高斯的所有属性（位置、协方差、颜色、不透明度）非常困难。

GaussianCube：它先训练一个扩散模型生成一个结构化的3D高斯锚点网格，然后再根据这些锚点预测完整的高斯属性。这种“先锚定，后细化”的策略更稳定。
GVGEN：采用了类似的思路，先生成关键点，再扩散出完整的高斯表示。

5.3 优势、挑战与实操考量

优势：

推理速度快：一旦训练完成，生成一个3D资产只需一次前向传播（秒级），摆脱了SDS漫长的每场景优化。
高质量先验：直接从3D数据中学到的先验，几何结构通常比通过2D模型蒸馏得到的更合理、更一致。
易于控制：潜空间通常具有良好的插值特性，便于进行形状编辑、插值等操作。

挑战与实操心得：

数据瓶颈：严重依赖大规模、高质量的3D数据集。Objaverse的出现是一剂强心针，但其数据质量参差不齐，需要精细的清洗和预处理。
类别限制：大多数模型是在特定类别（如椅子、汽车）上训练的，泛化到未见过的类别或复杂组合概念（如“机器龙”）能力有限。大规模多类别训练是趋势。
纹理细节不足：由于3D数据集通常纹理分辨率较低或风格单一，直接生成的模型纹理往往比较平滑，缺乏真实世界的丰富细节。一个常见的技巧是结合2D纹理扩散模型进行后处理。
评估困难：如何定量评估生成的3D模型的质量？常用的指标有：
- 生成质量：使用在生成的多视角渲染图上计算的FID（弗雷歇距离）、KID（核距离）等。
- 几何质量：使用Chamfer Distance（倒角距离）、EMD（推土机距离）比较生成点云与真实点云。
- 多样性：使用覆盖率（Coverage）和最小匹配距离（MMD）。
- 文本对齐度：使用CLIP R-Precision，计算生成图像的CLIP特征与输入文本特征的匹配度。

6. 核心挑战与未来方向

尽管进展迅速，扩散模型在3D生成领域仍面临诸多挑战，这也是未来研究的主要方向。

6.1 生成质量：从“像”到“真”

当前方法生成的3D资产，与专业建模师的作品或高保真扫描数据相比，仍有明显差距。

几何瑕疵：基于2D蒸馏的方法常有空洞、漂浮物、拓扑错误；基于3D数据的方法则可能过度平滑，缺乏锐利细节。
纹理与材质：难以生成复杂的PBR材质（金属度、粗糙度）、次表面散射效果。纹理常常是“画”在表面上的，缺乏物理真实性。
场景级生成的困境：现有方法生成室内外复杂场景的能力很弱，场景中的物体布局、光照、尺度关系常常不合理。这需要模型理解更深层的物理和空间常识。

未来方向：需要更大规模、更多样化、更高精度的3D数据集（如Objaverse-XL）。在模型架构上，可能需要更强大的3D感知生成器，以及更好地融合2D视觉先验和3D几何约束。

6.2 效率瓶颈：从“等待”到“实时”

优化速度：SDS类方法仍需数十分钟甚至数小时的GPU时间生成一个物体，无法满足交互式应用需求。
训练成本：在3D数据上训练扩散模型，尤其是高分辨率表示，需要巨大的计算资源和时间。
推理速度：虽然3D空间扩散模型推理快，但解码潜码到可渲染的网格或高分辨率NeRF仍需额外时间。

未来方向：更高效的3D表示（如3D高斯泼溅）是突破口。蒸馏技术将多步扩散模型压缩为一步或几步的模型，能极大加速推理。级联生成（先低分辨率后超分）也是常用策略。

6.3 可控性与编辑性：从“生成”到“创作”

目前用户控制生成结果的能力还很弱，主要通过文本提示，控制粒度粗糙。

精细控制：如何控制物体的姿态、尺寸、部件的形状、对称性？如何实现“向左旋转30度”、“把椅腿加粗”这样的指令？
组合生成：如何根据复杂的场景描述，生成由多个物体合理组成的场景？这需要解决物体间的碰撞检测、物理合理性等问题。
后期编辑：生成后的模型难以像传统3D软件中的网格一样进行直观的编辑（拉伸、切割、布尔运算）。

未来方向：需要发展更强大的条件生成框架，支持草图、深度图、分割图、关键点等多种控制信号。组合生成模型和层次化生成是解决场景生成的关键。此外，探索生成式3D编辑，允许用户通过自然语言或交互式笔刷对生成的3D模型进行局部修改，是一个极具应用价值的方向。

6.4 评估标准与基准测试

缺乏统一、全面的评估基准是阻碍领域发展的一个重要因素。T3-Bench等基准测试的出现是好的开始，但还需要更多维度：

人类偏好评估：最终质量需要人的主观判断。
下游任务性能：生成的3D模型在机器人抓取、AR/VR应用、游戏引擎中的实际性能如何？
公平比较：需要在相同的数据集、计算资源和评估指标下比较不同方法。

7. 资源与工具：如何上手实践

如果你对亲手尝试3D生成感兴趣，以下是一些实用的资源和工具：

开源代码库与平台：

threestudio：一个非常活跃、模块化的开源框架，集成了数十种最新的3D生成算法（特别是SDS类）。它支持多种3D表示（NeRF, 3DGS, DMTet等）和扩散模型后端（Stable Diffusion, DeepFloyd等），是入门和研究的绝佳起点。
Awesome-3D-Diffusion：一个由社区维护的GitHub仓库，持续跟踪最新的论文和代码，是获取前沿信息的好渠道。
Stable Diffusion WebUI 的 3D 插件：一些社区开发者开发了插件，将DreamGaussian等算法集成到WebUI中，提供了相对友好的图形界面。

常用数据集：

Objaverse / Objaverse-XL：当前规模最大、类别最丰富的开源3D模型集合，是训练3D扩散模型的基石。
ShapeNet：经典的数据集，包含大量分类良好的CAD模型，常用于学术研究。
CO3D：包含真实物体的多视图视频，带有精确的相机参数，适合训练新视角合成模型。
MVImgNet：另一个大规模的多视图图像数据集。

入门建议：

从使用开始：先尝试用开源的推理代码或在线Demo（如Luma AI的Dream Machine、Meshy等）生成一些3D模型，直观感受当前技术的水平和局限。
理解一个经典工作：深入阅读并复现一篇经典论文的代码，比如DreamFusion或DreamGaussian。理解其数据流、损失函数和优化流程。
关注核心挑战：在实践过程中，你会亲身遇到Janus问题、几何粗糙、优化不稳定等挑战。尝试阅读后续论文是如何解决这些问题的，例如通过Perp-Neg解决多面问题，通过法向图平滑提升几何。
选择合适的方向：根据你的兴趣和资源，选择深入一个子方向。如果热衷底层模型研究，可探索3D空间扩散的新架构；如果追求应用落地，可专注于优化SDS的效率或与具体行业工作流结合。

扩散模型为3D内容创作带来的变革才刚刚开始。从“一句话生成粗糙模型”到“高质量、可控、可编辑的数字化资产流水线”，中间还有很长的路要走。但毫无疑问，这条路正在被迅速铺平，而掌握这些核心原理与技术细节，将是参与并推动这场变革的关键。