news 2026/5/1 11:30:33

TPAMI 2025 | 超矩形嵌入新突破!多机构联合提出无偏3D场景图预测框架,革新RGB序列语义理解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | 超矩形嵌入新突破!多机构联合提出无偏3D场景图预测框架,革新RGB序列语义理解
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

在自动驾驶、机器人导航等领域,3D场景图作为环境的高级语义表示,扮演着至关重要的角色。然而,现有方法在处理语义多义性、数据偏差和预测可靠性等问题上仍存在瓶颈。近期发表于TPAMI 2025的论文《Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences》提出了一种基于超矩形嵌入的创新方案,为解决这些挑战提供了新思路。

论文信息

题目:Hyperrectangle Embedding for Debiased 3D Scene Graph Prediction from RGB Sequences
从RGB序列中进行无偏3D场景图预测的超矩形嵌入
作者:Mingtao Feng, Chenbo Yan, Zijie Wu, Weisheng Dong, Yaonan Wang, Ajmal Mian
源码:https://github.com/cbyan1003/HEDSGP

核心痛点:3D场景图预测的三大难题

传统3D场景图方法通常将实体表示为固定维度的特征向量,这种粗糙的表示方式难以应对语义角色的多义性。例如,在"<橱柜,在……上,地板>"和"<水槽,附着于,橱柜>"两个关系中,"橱柜"作为宾语和主语时需要强调的语义属性截然不同,但向量表示无法有效区分这些细微差别。

此外,3D场景数据集普遍存在的长尾分布问题(即少数关系类别占据大量样本,多数类别样本稀缺),导致模型倾向于预测常见类别,产生严重偏差。同时,现有方法从未考虑预测结果的可靠性,使得模型在关键决策场景中面临巨大风险。

创新突破:超矩形嵌入的表示革命

论文提出用超矩形嵌入(hyperrectangle embedding)替代传统向量表示实体节点,这一几何化的表示方式为场景理解带来三大优势:

  1. 细粒度语义捕捉:超矩形通过n维空间中的区间范围(如[x₁⁻,x₁⁺]×[x₂⁻,x₂⁺]×...×[xₙ⁻,xₙ⁺])建模实体,相比向量能更自然地表达语义的模糊性和多模态性。

  2. 关系的几何解释:两个实体的关系通过各自超矩形经仿射变换后的交集表示(如图1所示),交集体积直接反映关系的置信度,实现了关系推理的可视化解释。

  3. 灵活的角色适配:同一实体在不同关系中(如作为主语或宾语)会被赋予不同的仿射变换,完美解决语义角色多义性问题。

图1:传统向量表示(a)与超矩形嵌入表示(b)的对比,超矩形通过几何交集建模关系

方法解析:从RGB序列到可靠场景图

整体框架

论文框架包含三个核心模块(如图2所示):RGB序列重建管道、超矩形嵌入节点表示、去偏边表示与可靠性增强。

图2:基于超矩形嵌入的3D场景图预测框架

1. RGB序列重建管道

从连续RGB帧出发,通过ORB-SLAM3生成稀疏点云,结合2D实体检测与多视图图像特征,为每个实体构建包含几何特征、图像特征和空间属性(边界框中心、体积等)的初始描述,为后续超矩形嵌入提供丰富输入。

2. 超矩形嵌入生成

将实体编码为n维超矩形:

  • 通过盒解码器将初始特征转换为超矩形的中心坐标和偏移参数

  • 利用Gumbel分布建模超矩形边界,解决训练中的梯度稀疏问题

  • 节点分类通过计算实体超矩形与类别原型超矩形的交集体积实现

3. 去偏关系推理

为解决长尾分布偏差,论文设计了混淆历史块(confusion history block)机制(如图3所示):

图3:逻辑约束与历史信息融合机制

  • 构建三维立方体矩阵记录历史预测结果(主语、谓词、宾语)

  • 通过注意力机制从数据丰富类别向稀缺类别转移知识

  • 引入一阶逻辑规则(如关系传递性)约束超矩形变换,增强推理合理性

4. 可靠性增强策略

通过高斯核函数分析混淆历史块,计算预测的边界不确定性(决策边界附近样本)和内部不确定性(高误分类区域样本),识别不可靠样本并精炼训练集,最终提升模型预测的稳定性。

图4:混淆历史块的三维结构与切片方式,蓝色切片用于主语分析,红色切片用于宾语分析

实验验证:3DSSG数据集上的全面超越

在3DSSG数据集(包含1335个室内场景、160个实体类别和26个关系类别)上的实验表明:

  • 对象分类:在20个NYUv2实体类别上准确率提升4.3%

  • 谓词分类:对稀有关系类别的召回率提升12.7%

  • 三元组预测:R@1指标超过现有SOTA方法5.8个百分点

尤其值得注意的是,在包含160个实体类别和26个关系类别的完整设置下,该方法在场景图分类(SGCls)和谓词分类(PredCls)任务中均保持显著优势,证明了其在复杂场景中的鲁棒性。

总结与展望

该研究通过几何化的超矩形嵌入打破了传统向量表示的局限,结合历史引导去偏和可靠性增强策略,为3D场景图预测开辟了新方向。未来工作可探索更高维超矩形的优化方法,以及在动态场景中的应用拓展。

下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 3:55:36

MinerU OCR识别弱?PDF-Extract-Kit增强模块部署教程

MinerU OCR识别弱&#xff1f;PDF-Extract-Kit增强模块部署教程 你是不是也遇到过这样的问题&#xff1a;用MinerU处理PDF时&#xff0c;文字识别还行&#xff0c;但一碰到扫描件、模糊图表、手写批注或复杂排版的学术论文&#xff0c;OCR就“睁眼瞎”&#xff1f;公式识别错位…

作者头像 李华
网站建设 2026/4/24 22:32:01

BERT部署缺少WebUI?集成可视化界面镜像实战推荐

BERT部署缺少WebUI&#xff1f;集成可视化界面镜像实战推荐 1. 为什么你需要一个带WebUI的BERT填空服务 你是不是也遇到过这些情况&#xff1a; 想快速验证一段中文句子的语义合理性&#xff0c;却要打开Python脚本、写几行代码、等环境加载——结果只为了试一句“春风又绿江…

作者头像 李华
网站建设 2026/4/24 22:17:16

基于spring的供电管理系统[spring]-计算机毕业设计源码+LW文档

摘要&#xff1a;随着电力行业的不断发展和信息化需求的日益增长&#xff0c;构建高效、稳定的供电管理系统具有重要的现实意义。本文基于Spring框架设计并实现了一个供电管理系统&#xff0c;详细阐述了系统的需求分析、技术选型、架构设计、功能模块实现以及测试过程。该系统…

作者头像 李华
网站建设 2026/5/1 8:11:05

Qwen3-Embedding-4B省钱部署:云实例选型优化实战

Qwen3-Embedding-4B省钱部署&#xff1a;云实例选型优化实战 1. Qwen3-Embedding-4B是什么&#xff1f;它为什么值得你关注 Qwen3-Embedding-4B不是普通的大模型&#xff0c;而是一把专为“理解文本意义”打磨的精密小刀——它不生成文字&#xff0c;不编故事&#xff0c;只做…

作者头像 李华
网站建设 2026/4/27 4:12:31

Qwen3-4B-Instruct与Llama3-8B对比:轻量级模型推理速度实测

Qwen3-4B-Instruct与Llama3-8B对比&#xff1a;轻量级模型推理速度实测 1. 为什么这场对比值得你花三分钟看完 你是不是也遇到过这些情况&#xff1a; 想在单张4090D上跑一个能干活的开源模型&#xff0c;结果不是显存爆了&#xff0c;就是生成一句话要等五秒&#xff1b;看…

作者头像 李华
网站建设 2026/5/1 7:44:28

开源大模型趋势分析:NewBie-image-Exp0.1如何推动动漫AI创作

开源大模型趋势分析&#xff1a;NewBie-image-Exp0.1如何推动动漫AI创作 近年来&#xff0c;开源大模型正从通用文本生成加速向垂直领域纵深演进。在图像生成赛道&#xff0c;动漫风格已不再是商业闭源模型的专属领地——一批轻量但精准、开放且可塑性强的国产动漫专用模型正在…

作者头像 李华