SIGGRAPH‘26 | 英伟达新作ArtiFixer：革新3D重建，自回归扩散让PSNR暴涨3 dB！-平芜编程栈

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！

论文信息

标题：ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

机构：NVIDIA、ETH Zurich、Cornell University、University of Toronto、Vector Institute

原文链接：https://research.nvidia.com/labs/sil/projects/artifixer/assets/paper.pdf

代码链接：https://research.nvidia.com/labs/sil/projects/artifixer/

导读

诸如3D高斯散布法这样的逐场景优化技术，虽然能够生成出高质量的合成图像，但其在处理那些观测不足的区域时效果较差。那些利用生成式模型来修正这些区域中存在的缺陷的方法虽然很有前景，但目前还存在两个问题。首先是可扩展性问题：现有的方法大多使用图像扩散模型或双向视频模型，而这些模型的单次处理所能生成的视图数量有限，因此需要通过复杂的迭代过程来确保结果的准确性。其次就是图像质量的问题：以往的研究中使用的生成器往往无法生成与现有场景内容相一致的图像，而在完全未被观测到的区域内，则完全无法生成任何图像。

为了解决这些问题，我们提出了一种两阶段处理流程，该流程利用了两个关键思路。首先，我们训练了一个强大的双向生成模型，该模型采用了新颖的不透明度混合技术，从而在确保与现有观测结果一致性的同时，仍能让模型具备在未知区域生成新内容的能力。其次，我们将该模型转化为一个因果自回归模型，使其能够一次性生成数百帧图像。这种模型可以直接生成新的图像，或者作为“伪监督”数据，以简单高效的方式提升底层3D模型的表现力。经过大量测试，我们证明：在那些现有方法无法解决问题的情况下，我们的方法能够生成出合理的重建结果。在常见的基准数据集上，我们的性能远远优于所有现有的算法，其PSNR值比最先进的算法高出1-3 dB。

效果展示

我们生成了全新的轨道轨迹，并将ArtiFixer3D+的输出结果与它的基础版本3DGUT的渲染效果进行了比较。同时，我们还将其与GenFusion以及GSFixer的渲染结果进行了对比。所有这些对比都是在MipNeRF 360中最具挑战性的三视图分割场景中进行的。据我们所知，我们的渲染质量远远超过了此前发表过的所有研究成果。

我们将DL3DV上的ArtiFixer3D+与3DGUT以及另外两种基于双向视频扩散模型开发的算法进行了比较。GenFusion的基模型每次只能生成16帧图像，因此需要通过迭代处理来完善图像效果，但这种方式会导致图像质量下降，尤其是在画面中的空白区域。Gen3C生成的图像虽然更清晰，但往往无法保持与原始内容的一致性。而我们的方法即便在初始渲染效果很差的情况下，也能重建出既合理又连贯的图像。

与其他数据集的情况类似，我们的方法是唯一一种能够在未观测区域生成合理、符合真实情况的可视化图像的方法，同时还能确保图像与原始数据的特征保持一致。

我们放弃了最初的渲染方式，迫使模型根据参考视图来重建场景。虽然图像的逼真度有所下降，但场景的整体结构依然保持完整，同时摄像机的运动方式也正确无误。

引言

高质量的新视角合成对于虚拟现实、增强现实以及物理人工智能的闭环仿真应用至关重要。这些应用场景需要逼真的渲染能力以及能够在不受约束的相机运动下导航复杂环境的能力。近年来，两种范式成为新视角合成的主流方法：显式3D神经重建，以及相机可控的图像或视频生成。神经重建方法已经显著成熟，如今在利用密集图像集合和精确相机位姿进行训练时，能够实现实时渲染和高视觉保真度。然而，在最广泛使用的逐场景优化设置中，它们的性能根本上仍受限于输入观测的完整性和质量。在采集过程中稀疏观测或完全缺失的区域会得到较差的重建，导致伪影、空洞或不合理的几何形状。尽管这些缺陷在训练视角附近仍然隐藏，但在场景的自由漫游过程中它们将不可避免地被暴露出来。

相反，最近的视频生成模型已经展示了合成逼真且时间一致的内容的能力，这些内容通常与现实世界的视频难以区分。尽管取得了这些进展，但对长序列的精确相机控制、长期时间一致性以及漂移和幻觉的累积仍然是未解决的挑战，限制了它们对交互式视图合成的适用性。我们不将重建和生成视为独立的替代方案，而是旨在结合它们互补的优势：生成模型作为强大的先验来修复和完善不完美的重建，而显式（尽管带有噪声且不完整）的3D表示提供了强大的条件信号，为生成提供基础，减轻长期漂移，并抑制幻觉。最近的方法已经朝这个方向迈出了初步步伐，它们训练生成模型将退化的新视角渲染映射到干净的图像，并将由此产生的改进提炼回底层的3D表示。然而，这些方法必须应对两个基本的权衡。首先，它们必须平衡时间一致性和效率：一些方法采用大型双向视频生成模型，提供强大的时间连贯性但计算成本高，而另一些方法则依赖于（多视图）基于图像的生成模型，这些模型更高效但限制了时间一致性，并且需要渐进式提炼策略。其次，它们面临着条件强度与生成能力之间的权衡。那些通过连接或交叉注意力在退化渲染上条件化生成的方法存在改变观察到的场景内容的风险，而那些被训练为直接将退化渲染映射到干净图像的方法则无法合成缺失的内容，因为在完全未观察的区域（所有输入像素均为黑色）会出现模式坍塌。

主要贡献

在我们的工作中，我们沿着这一研究方向，将一个预训练的双向视频扩散模型改造为一个相机可控的生成器，该生成器将退化的渲染映射到干净的图像。为了克服上述限制，我们引入了两项关键贡献：（i）一种透明度感知的噪声混合策略，向低透明度区域注入高斯噪声，防止模式坍塌并保持未观察区域的生成能力；（ii）将双向模型提炼为少步因果自回归生成器，该生成器能够生成任意长度的、时间一致的视频，同时达到先前基于图像的方法的效率。通过这样做，我们证明即使高度退化的3D重建也能提供足够的条件信号，从而显著简化提炼过程。尽管最近的工作已经开始将显式3D表示作为自回归视频生成的条件信号，但这些方法将3D输入视为固定的条件而非待改进的输出。我们的方法闭合了这个循环：重建为生成器提供条件，而生成器反过来增强和扩展重建，从而实现更高质量的视频合成和改进的3D场景完整性。由此产生的框架能够高效地改进底层的3D重建，并在多个基准测试中大幅超越各种基线方法。

方法

ArtiFixer采用两阶段处理流程。在第一阶段中，我们运用不透明度混合策略来微调双向视频生成模型：而不是从纯噪声或已损坏的渲染图像开始，我们将输入的RGB图像转换到潜在空间中，再利用渲染得到的不透明度信息与高斯噪声进行混合。这样一来，模型能够在保持对现有场景内容的忠实度的同时，仍能在未知区域发挥出色的生成能力。此外，我们还会引入详细的不透明度信息、摄像机控制信号，以及清晰的参考图像和可选的文本提示。

在第二阶段中，我们通过自强迫式DMD蒸馏方法，将双向教师模型转化为一个因果自回归模型。由此产生的模型能够在单次处理中生成数百帧图像，这些图像可以直接用于新的视图合成任务，或者作为伪监督数据，从而提升底层3D模型的表现效果。

ArtiFixer变体

我们测试了三种方案：ArtiFixer直接利用自回归生成模型来创建新的图像；ArtiFixer3D则将生成的图像转换回三维形式；而ArtiFixer3D+则是在ArtiFixer3D的基础上，再应用自回归模型进行后处理处理（与Difix3D中的处理方式相同）。这三种方案产生的图像效果大致相似：ArtiFixer生成的图像清晰度稍高一些；ArtiFixer3D生成的图像与原始图像更为一致，但相应地也会有一些模糊感；而ArtiFixer3D+则在保持高一致性的同时，也能让图像恢复清晰的视觉效果。

去噪步骤

由于我们的方法是以渲染结果为起点，而非纯粹的随机噪声，因此在大多数情况下，只需不到四步就能生成出较为合理的视觉效果。不过，空白区域的清晰度以及图像的连贯性会有所下降。我们比较了在不同去噪步骤下得到的效果，这些效果都是基于经过微调后的轨迹数据生成的（ArtiFixer3D）。总体而言，随着去噪次数的增加，渲染结果会越来越稳定，不过在那些之前未被处理的边缘区域，仍会出现一些细微的变化。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉方向论文辅导来啦！可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。