news 2026/5/27 10:37:09

SIGGRAPH‘26 | 清华开源Pixal3D:1张图像重建高保真3D模型,精细几何纹理!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SIGGRAPH‘26 | 清华开源Pixal3D:1张图像重建高保真3D模型,精细几何纹理!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!

论文信息

标题Pixal3D: Pixel-Aligned 3D Generation from Images

作者Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu

机构Tsinghua University、Tencent ARC Lab、Victoria University of Wellington

论文https://arxiv.org/abs/2605.10922

代码https://ldyang694.github.io/projects/pixal3d/

导读

最近,3D生成技术取得了显著进展,这使得图像到3D的转换质量大幅提升,从而能够生成分辨率更高的3D模型,并让其外观更加真实。不过,如何确保生成的3D模型在像素层面与输入图像高度一致,仍然是一个亟待解决的问题。我们认为,这一问题的根源在于2D与3D之间的对应关系不够明确:大多数3D生成方法都是在标准空间中构建模型,再通过注意力机制将图像特征融入其中,这样一来,像素与3D模型的对应关系就变得模糊不清了。为了解决这个问题,我们借鉴了3D重建的技术,提出了Pixal3D这一创新方案。该方案能够实现与输入图像完全一致的、以像素为单位的三维模型生成。为此,我们设计了一种特殊的像素反投影处理方式,将多尺度图像特征直接转化为3D特征数据,从而实现清晰的像素与3D对应关系。实验结果表明,Pixal3D不仅具有很高的扩展性,能够生成高质量的3D模型,而且其生成效果几乎可以与传统的3D重建技术相媲美。此外,Pixal3D还可以轻松实现多视角下的3D模型生成,只需将不同视角下的特征数据整合起来即可。最后,我们证明了这种以像素为单位的设计方式有助于提升场景合成的效果。我们开发的流程能够从图像中生成高保真、且各物体相互独立的3D场景。Pixal3D首次实现了大规模的、以像素为单位的三D模型生成技术,为利用单视图或多视图图像来生成高保真3D模型提供了新的解决方案。

效果展示

由Pixal3D生成的像素级对齐网格。前景部分展示了我们的结果,背景中则显示相应的输入图像。我们的后向投影调整方案(左下角)能够将2D图像特征明确提升至3D体积中,从而建立起稳健的2D-3D对应关系以供生成之用。

单视图三维重建的定性比较。

引言

从图像自动创建高质量3D资产是计算机图形学的一个核心目标,对游戏、增强现实/虚拟现实和数字制造具有深远影响。近期3D生成建模领域取得了显著进展,能够生成几何细节日益丰富、外观逼真且部件可控的资产,推动3D生成向真正可即用的资产迈进。

然而,当前图像到3D方法的广泛采用仍受到一个关键瓶颈的限制:保真度。这里,保真度衡量生成的3D资产与输入图像的匹配程度。大多数现有方法以图像为条件,但往往只能生成大致相似的形状,存在明显的错位和精细细节丢失。这不符合用户预期:给定一张图像,用户通常希望生成的3D模型能够(1)精确重建可见表面,(2)合理补全未观测区域,形成一个连贯且可用的3D资产。在高质量的基础上实现高保真度,是使图像到3D生成在实际应用中真正有用的关键下一步。

有趣的是,这个问题在3D重建中远不那么突出。3D重建是一个互补的领域,其主要目标是从二维观测(无论是多视图还是单视图)中恢复可见的3D结构。我们将这种差异归因于显式的2D-3D对应关系建立。对应关系是重建的基础:多视图几何建立在像素对应和三角测量之上,而单视图重建流程以像素对齐的方式预测深度、法线或点图,从而在2D图像像素与恢复的3D之间建立直接、清晰、一对一的对应关系。相比之下,现有的3D原生生成方法在规范姿态下合成形状,并依赖交叉注意力将图像信息注入3D隐空间。这使得2D-3D对应关系变得隐式且复杂:交叉注意力必须有效“搜索”每个图像特征应影响3D表示的哪些位置,从而给局部细节、重复部件或多输入视图间引入模糊性和混淆,最终表现为保真度下降。

为了解决这一保真度问题,我们提出了Pixal3D,一种新的像素对齐3D生成范式,它将重建的几何严谨性与生成模型的创造力相结合。与之前的规范空间生成不同,Pixal3D直接在与输入图像一致的像素对齐姿态下生成3D。为实现这一点,我们引入了一种反投影条件机制,该机制通过建立显式的2D-3D对应关系将像素信息注入3D,取代了常用的交叉注意力机制。具体来说,我们将图像特征反投影到3D体积中:沿射线的每个3D体素都被赋予对应的像素特征,从而生成一个像素对齐的、提升后的3D特征体积。然后将该体积作为条件信号添加到3D噪声体积中。我们进一步融入多尺度图像特征以保留和传播精细细节。通过这些精心设计,我们证明了这种像素对齐的3D生成范式不仅可行且可扩展以生成高质量3D模型,而且相较于当前的3D生成方法显著提高了3D保真度,达到了接近重建水平的保真度。

此外,Pixal3D自然地统一了单视图和多视图设置,使用相同的公式。我们将Pixal3D扩展到多视图3D生成,方法是将每个视图反投影到一个像素对齐的特征体积中,并通过平均进行聚合,从而形成一种简单可靠的多视图生成方法。最后,我们展示了这种像素对齐范式也有利于3D场景生成:我们提出了一种模块化流程,以类似于近期SAM3D场景构建的方式,将物体级别的生成组合成高保真、物体分离的3D场景。

Pixal3D本质上是一种3D生成重建范式,它体现并形式化了重建与生成之间的协同作用。它继承了两者的优点:可见表面通过显式对应关系(如同重建)受到输入图像的强约束,而不可见区域则由以观测为条件的生成模型的学习先验进行合理补全。Pixal3D为从单视图和多视图输入生成忠实的3D物体和场景提供了一种简单而有效的范式。图1展示了代表性示例。重要的是,Pixal3D与特定的3D生成骨干网络正交,因此能够受益于几何表示、部件建模、纹理、材质等方面的持续进展,使其成为高保真3D生成的可扩展基础。

主要贡献

我们的贡献总结如下:(1)我们提出了Pixal3D,一种像素对齐的3D生成范式,并证明了像素对齐生成在大规模下是可行的,同时显著提高了图像到3D的保真度。(2)我们提出了一种射线反投影条件机制,用显式的2D-3D对应关系取代交叉注意力,实现了直接的像素到3D特征提升,并更忠实地保留图像细节。(3)我们通过简单有效的多视图特征体积聚合,将Pixal3D从单视图生成扩展到多视图生成。(4)我们基于Pixal3D提出了一种模块化的3D场景生成流程,能够产生高保真、物体分离的3D场景。

方法

该框架包含三个关键组件:(1)像素对齐的结构化潜在表示学习(右上),使用VAE将像素对齐的稀疏有符号距离场压缩为高效的稀疏潜在码;(2)基于图像反投影的条件编码器(左上),将2D图像特征显式提升为3D特征体积;(3)两阶段生成过程(结构生成和结构化潜在生成),以这些体积为条件,分别预测粗略结构和详细潜在码。最后,生成的潜在码被解码为高保真网格。

实验结果

针对多视图评估,我们从多视图重建和生成中选取了代表性的基线方法,即VGGT*和 TRELLIS(多视图版本)。评估在Toys4k数据集上进行,使用了Chamfer距离、推土机距离和F-score。我们测试了不同输入视图数量(2、4和6)下的性能。

图6展示了定性结果。具体而言,VGGT通常无法生成严格对齐的点云重建,并且经常出现明显的漂浮物和离群点。而多视图版本的TRELLIS虽然能生成平滑的网格输出,但其多视图保真度仍然有限,难以确保所有视图的一致性,有时还会产生幻觉。相比之下,我们的像素对齐公式能够无缝地适应多视图输入,从而实现了卓越的跨视图一致性。此外,随着视图数量的增加,生成歧义性减少,重建线索增强——这一趋势在我们的结果中持续观察到。这种行为也是3D生成重建的基本原理和目标。

总结 & 未来工作

在本文中,我们提出了Pixal3D——一种用于从图像创建高保真3D资产的像素对齐3D生成范式。与现有在规范空间中合成形状的原生3D生成方法不同,Pixal3D直接创建与图像对齐的3D模型。基于反投影的图像条件方案用显式的、几何意义上的2D-3D对应关系取代了歧义的交叉注意力,实现了高精度的像素对齐合成。我们进一步通过将其扩展到多视图输入和通过模块化流水线进行3D场景生成,展示了这一范式的多功能性。我们广泛的评估证实,像素对齐生成不仅可行,而且显著增强了3D保真度。Pixal3D为3D生成重建提供了一个可扩展的基础,为创建既具有创造性灵活性又具有像素级忠实度的3D内容开辟了一条有前景的道路。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/27 10:35:28

C++项目中的文件后缀名:从历史渊源到现代实践

1. 为什么C会有这么多文件后缀名? 第一次接触C项目时,很多人都会被各种文件后缀名搞晕。.cpp、.cc、.cxx、.hpp、.h...这些看起来差不多的后缀到底有什么区别?其实这背后藏着一段有趣的技术演进史。 早期的C编译器直接沿用了C语言的文件命名…

作者头像 李华
网站建设 2026/5/27 10:34:38

5个理由告诉你为什么这款macOS剪贴板管理器能彻底改变你的工作流

5个理由告诉你为什么这款macOS剪贴板管理器能彻底改变你的工作流 【免费下载链接】Maccy Lightweight clipboard manager for macOS 项目地址: https://gitcode.com/gh_mirrors/ma/Maccy 你是否曾经复制了一段重要信息,却被后续操作覆盖,再也找不…

作者头像 李华
网站建设 2026/5/27 10:32:34

Keil µVision硬件调试限制与优化策略

1. 目标硬件调试的限制解析作为一名嵌入式开发工程师,我经常使用Keil Vision调试器进行项目开发。在实际工作中,我发现很多开发者对目标硬件调试的限制认识不足,导致调试效率低下。本文将详细剖析Vision在目标硬件调试中的各种限制&#xff0…

作者头像 李华
网站建设 2026/5/27 10:28:47

魔兽世界API查询与宏命令工具:玩家必备的终极指南

魔兽世界API查询与宏命令工具:玩家必备的终极指南 【免费下载链接】wow_api Documents of wow API -- 魔兽世界API资料以及宏工具 项目地址: https://gitcode.com/gh_mirrors/wo/wow_api 在魔兽世界这个充满魔法与冒险的世界里,掌握游戏API和高效…

作者头像 李华