点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
主页:https://henghuiding.com/SceneDesigner/
论文:https://arxiv.org/abs/2511.16666
摘要
近年来,可控图像生成领域引起了广泛关注,用户已能对生成内容的身份和风格进行一定程度的操纵。然而,如何在单张图像中同时对多个物体进行涵盖位置(Location)、大小(Size)和朝向(Orientation)的 9自由度(9-DoF) 精准控制,仍是一个未解难题。尽管现有方法取得了一定进展,但往往受限于控制能力的不足或生成质量的下降,难以实现全面的多物体三维空间布局控制。
针对这一局限,SceneDesigner 框架应运而生——这是一种能够实现准确且灵活的多物体9D姿态操控的生成方法。SceneDesigner 在预训练模型的基础上引入了一个分支网络,并利用一种全新的 CNOCS Map 作为核心表征。这种表征方式从相机视角对物体的9D姿态信息进行编码,具有极强的几何解释性,从而实现了更高效、稳定的训练。
此外,为了支持模型训练,研究者构建了 ObjectPose9D 数据集;针对长尾姿态分布导致的数据不平衡问题,引入了包含强化学习的两阶段训练策略;在推理阶段,该框架采用了 解耦物体采样(Disentangled Object Sampling) 技术以解决多物体生成中的概念混淆问题。实验表明,SceneDesigner 在可控性和生成质量上均显著优于现有方法。
现存问题及挑战
随着生成式AI的发展,控制生成图像的空间属性(如物体结构或场景布局)已在2D层面(如利用边缘图、深度图)取得了广泛探索。然而,3D空间控制 仍是一大挑战。例如,设计师希望在房间中摆放多件家具,每件家具有不同的大小和朝向;或者用户希望生成一只背对镜头凝视风景的宠物狗。现有的解决方案面临以下瓶颈:
1. 3D感知的缺失: 大多数方法局限于2D空间控制(如ControlNet使用深度图或边缘图),无法理解物体的三维旋转和体积。
2. 控制维度的限制: 早期尝试(如LOOSECONTROL)使用3D边界框进行引导,但这只能控制位置和大小,缺乏对物体“朝向”的精细表达(例如无法区分物体是正面还是背面朝向镜头)。
3. 多物体生成的干扰: 在生成复杂场景时,不同物体的特征容易发生混淆,且难以获得高质量的带有9D姿态标注的训练数据。
因此,如何建立一种既包含精确几何信息又易于获取的表征,并在此基础上实现多物体的高保真生成,是该项研究的核心目标。
简单直观的交互流程
SceneDesigner的工作流程主要分为三个步骤,用户只需关注顶层的设计布局,复杂的几何转换则由模型自动完成:
1. 姿态控制(Pose Control): 用户首先根据构思,在 3D 空间中放置并调整立方体边界框。这代表了用户对物体位置、大小和朝向的意图。
2. 控制信号生成(Control Signals): 系统自动将用户定义的粗糙 3D 框转换为精细的 CNOCS Map。这一步是连接用户意图与模型理解的桥梁,它将几何信息编码为模型可读的特征图。
3. 图像生成(Image Generation): 结合文本提示(Prompt)与 CNOCS Map,生成模型最终渲染出符合空间布局的高质量图像。
这种设计使得用户无需具备专业的 3D 建模技能,仅通过简单的“搭积木”式的操作,即可实现对画面构图的精准把控。
方法介绍
该研究的核心贡献在于设计了一种能够精确编码9D姿态的表征形式,并配合专门的数据集与训练策略,实现了对图像生成的细粒度控制。
1. 核心创新:CNOCS Map
这是 SceneDesigner 实现精准姿态控制的关键所在。为了将任意物体的9D姿态(位置、大小、朝向)有效地编码进生成模型,该方法并未采用传统的文本嵌入或简单的几何投影,而是受到 NOCS(Normalized Object Coordinate System)的启发,设计了CNOCS Map (Cuboid-NOCS)。
传统 NOCS 的局限与 CNOCS 的改进:
传统的 NOCS 需要精确的物体3D CAD模型来确定每个像素在物体空间中的坐标,这在泛化到任意类别物体时非常困难且对用户不友好。相比之下,CNOCS Map 进行了一种巧妙的抽象:不再依赖精确的物体几何外形,而是使用立方体(Cuboid) 作为通用的形状抽象。
CNOCS Map 的构建过程:
CNOCS Map 本质上是一张与真实图像对齐的RGB图像,但其颜色信息代表了三维空间坐标。其构建流程如下:
1. 3D 边界框投影: 根据物体的9D姿态,获取其在3D空间中的边界框。
2. 坐标映射与归一化: 将边界框表面上的点映射回“物体坐标系”,归一化到 [-1 , 1] 区间。
3. 编码: 这种归一化后的坐标被编码为特征图。这意味着,图像中对应物体区域的每一个像素,都不仅包含了其在2D画面中的位置,还隐含了它在物体自身3D表面上的相对坐标。
通过注入 CNOCS Map,模型能够获得比传统 3D Bounding Box 更强的结构约束,从而在生成过程中精确地恢复出物体的三维姿态。
2. ObjectPose9D 数据集与两阶段训练
为了训练 SceneDesigner,研究者构建了 ObjectPose9D 数据集。该数据集整合了 OmniNOCS 和 MS-COCO 数据,通过自动化工具(如 Orient Anything 和 MoGe)与人工校验相结合的方式,提供了丰富的高质量9D姿态标注。
针对现实数据中姿态分布不平衡(如动物通常是侧面或正面,很少有背面视角)的问题,SceneDesigner采用了 两阶段训练策略:
第一阶段: 基础训练,使模型学习基本的姿态控制能力。
第二阶段: 引入强化学习(,利用设计好的奖励函数(根据生成物体的姿态准确性评分)在平衡后的数据分布上进行微调。这一阶段显著提升了模型对低频姿态的生成能力。
3. 推理阶段:解耦物体采样 (Disentangled Object Sampling)
在处理多物体场景时,传统扩散模型容易出现概念混淆(例如将“猫”的特征生成到了“狗”的位置)。为此,SceneDesigner 在推理阶段引入了 解耦物体采样 技术。
该技术利用 CNOCS Map 提供的精确区域掩码(Mask),在去噪的每一步中,根据空间位置将不同物体的生成过程隔离开来。每个区域只关注其对应的文本提示和姿态条件,最后再融合成整张图像。这确保了复杂场景中每个物体都能准确对应其指定的类别和姿态。
实验与成果
研究者将 SceneDesigner 与目前的 SOTA 方法(如 LOOSECONTROL, C3DW)进行了广泛对比。
1. 单物体与多物体控制性能
如下面的对比图所示,现有方法在控制物体朝向时往往存在偏差,或者导致物体形状崩坏。而 SceneDesigner 无论是控制单个物体的精细旋转,还是在同一场景中同时操控多个物体,都表现出了极高的一致性和保真度。
2. 灵活的应用场景
SceneDesigner 不仅限于通用物体生成,还支持结合 LoRA 等技术进行个性化定制。用户可以指定特定的角色,并利用 CNOCS Map 精确控制其在画面中的动作和位置。
结论
研究显示,现有图像生成模型在处理涉及三维空间属性的多物体布局时存在明显短板。基于此,SceneDesigner 通过引入 CNOCS Map 这一具有显式几何意义的姿态表征,结合构建的 ObjectPose9D 数据集与基于强化学习的训练策略,成功实现了对多物体9D姿态的精准操控。
实验结果表明,SceneDesigner 在无需昂贵训练成本的前提下,极大拓展了文本到图像模型在复杂空间布局上的生成能力。未来,该技术有望在虚拟摄影、场景设计、故事板绘制等领域发挥重要作用,让AI创作真正实现“随心所欲,所见即所得”。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ICCV 2025 论文和代码下载
在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看