TPAMI 2025 | 超矩形嵌入新突破！多机构联合提出无偏3D场景图预测框架，革新RGB序列语义理解-平芜编程栈

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达

在自动驾驶、机器人导航等领域，3D场景图作为环境的高级语义表示，扮演着至关重要的角色。然而，现有方法在处理语义多义性、数据偏差和预测可靠性等问题上仍存在瓶颈。近期发表于TPAMI 2025的论文《Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences》提出了一种基于超矩形嵌入的创新方案，为解决这些挑战提供了新思路。

论文信息

题目：Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences

从RGB序列中进行无偏3D场景图预测的超矩形嵌入

作者：Mingtao Feng, Chenbo Yan, Zijie Wu, Weisheng Dong, Yaonan Wang, Ajmal Mian

源码：https://github.com/cbyan1003/HEDSGP

核心痛点：3D场景图预测的三大难题

传统3D场景图方法通常将实体表示为固定维度的特征向量，这种粗糙的表示方式难以应对语义角色的多义性。例如，在"<橱柜，在……上，地板>"和"<水槽，附着于，橱柜>"两个关系中，"橱柜"作为宾语和主语时需要强调的语义属性截然不同，但向量表示无法有效区分这些细微差别。

此外，3D场景数据集普遍存在的长尾分布问题（即少数关系类别占据大量样本，多数类别样本稀缺），导致模型倾向于预测常见类别，产生严重偏差。同时，现有方法从未考虑预测结果的可靠性，使得模型在关键决策场景中面临巨大风险。

创新突破：超矩形嵌入的表示革命

论文提出用超矩形嵌入（hyperrectangle embedding）替代传统向量表示实体节点，这一几何化的表示方式为场景理解带来三大优势：

细粒度语义捕捉：超矩形通过n维空间中的区间范围（如[x₁⁻,x₁⁺]×[x₂⁻,x₂⁺]×...×[xₙ⁻,xₙ⁺]）建模实体，相比向量能更自然地表达语义的模糊性和多模态性。
关系的几何解释：两个实体的关系通过各自超矩形经仿射变换后的交集表示（如图1所示），交集体积直接反映关系的置信度，实现了关系推理的可视化解释。
灵活的角色适配：同一实体在不同关系中（如作为主语或宾语）会被赋予不同的仿射变换，完美解决语义角色多义性问题。

图1：传统向量表示（a）与超矩形嵌入表示（b）的对比，超矩形通过几何交集建模关系

方法解析：从RGB序列到可靠场景图

整体框架

论文框架包含三个核心模块（如图2所示）：RGB序列重建管道、超矩形嵌入节点表示、去偏边表示与可靠性增强。

图2：基于超矩形嵌入的3D场景图预测框架

1. RGB序列重建管道

从连续RGB帧出发，通过ORB-SLAM3生成稀疏点云，结合2D实体检测与多视图图像特征，为每个实体构建包含几何特征、图像特征和空间属性（边界框中心、体积等）的初始描述，为后续超矩形嵌入提供丰富输入。

2. 超矩形嵌入生成

将实体编码为n维超矩形：

通过盒解码器将初始特征转换为超矩形的中心坐标和偏移参数
利用Gumbel分布建模超矩形边界，解决训练中的梯度稀疏问题
节点分类通过计算实体超矩形与类别原型超矩形的交集体积实现

3. 去偏关系推理

为解决长尾分布偏差，论文设计了混淆历史块（confusion history block）机制（如图3所示）：

图3：逻辑约束与历史信息融合机制

构建三维立方体矩阵记录历史预测结果（主语、谓词、宾语）
通过注意力机制从数据丰富类别向稀缺类别转移知识
引入一阶逻辑规则（如关系传递性）约束超矩形变换，增强推理合理性

4. 可靠性增强策略

通过高斯核函数分析混淆历史块，计算预测的边界不确定性（决策边界附近样本）和内部不确定性（高误分类区域样本），识别不可靠样本并精炼训练集，最终提升模型预测的稳定性。

图4：混淆历史块的三维结构与切片方式，蓝色切片用于主语分析，红色切片用于宾语分析

实验验证：3DSSG数据集上的全面超越

在3DSSG数据集（包含1335个室内场景、160个实体类别和26个关系类别）上的实验表明：

对象分类：在20个NYUv2实体类别上准确率提升4.3%
谓词分类：对稀有关系类别的召回率提升12.7%
三元组预测：R@1指标超过现有SOTA方法5.8个百分点

尤其值得注意的是，在包含160个实体类别和26个关系类别的完整设置下，该方法在场景图分类（SGCls）和谓词分类（PredCls）任务中均保持显著优势，证明了其在复杂场景中的鲁棒性。

总结与展望

该研究通过几何化的超矩形嵌入打破了传统向量表示的局限，结合历史引导去偏和可靠性增强策略，为3D场景图预测开辟了新方向。未来工作可探索更高维超矩形的优化方法，以及在动态场景中的应用拓展。

下载1：OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2：Python视觉实战项目52讲 在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。 下载3：人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~