news 2026/5/14 4:34:30

【影石-arXiv25】Depth Any Panoramas:一种用于全景深度估计的基础模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【影石-arXiv25】Depth Any Panoramas:一种用于全景深度估计的基础模型

文章:Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

代码:https://insta360-research-team.github.io/DAP_website/

单位:影石


一、问题背景:全景深度估计的三大核心痛点

  1. 数据瓶颈:传统数据集规模小、场景单一,要么只有室内数据,要么室外样本稀缺,且合成数据与真实场景差距大,导致模型“见过的场景太少”;

  2. 适配性差:室内空间紧凑(距离多在10米内),室外场景开阔(距离可达百米级),现有模型难以同时适配两种极端尺度;

  3. 几何失真:全景图采用的球面投影会让画面边缘、极点区域产生拉伸扭曲,常规模型容易出现深度预测偏差,尤其在物体边界和远景区域。

二、方法创新:数据+模型双管齐下,突破技术限制

DAP的核心思路是“用海量数据打基础,用智能设计提精度”,具体有三大创新点:

1. 200万级全景数据集:覆盖所有场景的“训练素材库”

团队整合了4类数据,打造了目前规模最大、覆盖最广的全景数据集:

  • 优质室内标注数据:来自Structured3D的1.8万张高精度室内全景图;

  • 仿真室外标注数据:用UE5引擎的AirSim360模拟器生成9万张 photorealistic(照片级真实)室外图,涵盖纽约、罗马等5类典型场景;

  • 真实无标注数据:从网上爬取170万张全景图,用AI自动分类为室内(25万张)和室外(145万张);

  • 生成补充数据:用DiT360模型额外生成20万张室内图,弥补真实室内数据不足。

2. 三阶段伪标签 pipeline:让无标注数据“变废为宝”

为了解决“合成-真实”“室内-室外”的域差异,团队设计了渐进式伪标签生成流程:

  • 阶段1:用已有标注数据训练“场景无关标注器”,让它能初步识别室内外通用的深度特征;

  • 阶段2:用这个标注器给190万张无标注图生成“伪标签”,再用AI判别器筛选出60万张最靠谱的样本,训练“真实感无关标注器”,弱化合成与真实数据的差异;

  • 阶段3:把所有标注数据和优质伪标签数据混合,训练最终的DAP模型,实现大规模半监督学习。

3. 灵活+精准的模型设计:适配全场景+修正几何失真

  • 可插拔距离过滤头:提供10/20/50/100米4种距离阈值,室内用10米阈值聚焦近景,室外用100米阈值覆盖远景,灵活适配不同场景;

  • 双优化目标:① 清晰度优化:强化物体边界锐度,避免桌面、墙面边缘模糊;② 几何优化:把2D深度图转换成3D点云和表面法线,确保“墙面垂直、地面水平”等物理规律;

  • 扭曲补偿:针对全景图的投影扭曲,加入失真地图平衡画面各区域的训练权重,避免极点区域预测偏差。

三、实验结果:零-shot性能登顶,真实场景表现惊艳

团队在斯坦福2D3D、Matterport3D(室内)、Deep360(室外)三大权威数据集上做了零-shot测试(不针对测试集微调,直接预测),还新增了含1343张室外图的DAP-Test benchmark,结果亮眼:

1. 定量指标碾压现有方法

数据集

核心指标(AbsRel越低越好)

斯坦福2D3D

DAP 0.0921 vs 现有最佳0.1366

Matterport3D

DAP 0.0659 vs 现有最佳0.0888

Deep360

DAP 0.1186 vs 现有最佳0.1803

DAP-Test

DAP 0.0781 vs 现有最佳0.2517

在DAP-Test中,DAP把误差(RMSE)从10.56降到6.80,靠谱预测率(δ1)从60.86%提升到93.70%,优势显著。

2. 定性效果直观能打

  • 室内场景:精准保留家具边缘、墙角等细节,不会出现“墙面扭曲”;

  • 室外场景:远处的山脉、天空区域深度稳定,不会像传统模型那样出现“远景塌陷”;

  • 跨场景适配:同一模型既能搞定卧室、办公室,也能应对城市街景、公园绿地。

四、优势与局限

核心优势

  1. 通用性强:一个模型搞定室内外所有场景,无需切换参数;

  2. 零-shot能力突出:没见过的新场景也能精准预测,落地成本低;

  3. 实用性高:可插拔距离阈值+清晰边界+物理几何一致,适配VR/AR、机器人等实际应用。

现存局限

  1. 对超远距离(超过100米)的深度预测精度会下降;

  2. 训练需要海量计算资源(依赖H20 GPU),普通开发者难以复现;

  3. 极端天气(暴雨、大雾)下的全景图,深度特征识别能力有待验证。

五、一句话总结

DAP通过“200万级全场景数据集+三阶段伪标签 pipeline+灵活几何修正设计”,打造了首个能跨室内外、抗扭曲、零-shot泛化的全景深度估计基础模型,为空间智能技术落地扫清了关键障碍!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 17:05:45

40、全面解析密码策略与账户锁定设置

全面解析密码策略与账户锁定设置 在当今数字化的时代,保障系统和用户账户的安全至关重要。密码策略和账户锁定设置作为安全防护的重要组成部分,能够有效防止黑客攻击和未经授权的访问。本文将详细介绍密码策略和账户锁定设置的相关内容,包括各项设置的含义、作用以及如何进…

作者头像 李华
网站建设 2026/5/11 4:55:13

43、组策略设置配置指南

组策略设置配置指南 1. 组策略概述 组策略是活动目录中强大的工具,可用于集中管理和配置操作系统、应用程序以及用户设置,从而控制组织内计算机和用户的工作环境。随着 Windows 各版本的发布,组策略不断增加新设置,以支持新的技术特性,提供更精细的控制。 组策略分为计…

作者头像 李华
网站建设 2026/5/11 7:12:24

LangFlow投诉处理回复模板生成器

LangFlow投诉处理回复模板生成器 在客户体验日益成为竞争焦点的今天,企业面对海量投诉信息时,如何快速、合规且个性化地生成回应,已成为智能客服系统的关键挑战。传统依赖人工撰写或硬编码规则的方式,不仅效率低下,还容…

作者头像 李华
网站建设 2026/5/14 6:38:46

php+Vue+MySQL的校园论坛交流表白墙系统

目录具体实现截图项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理具体实现截图 本系统(程序源码数据库调试部署讲解)带文档1万字以上 同行可拿货,招校园代理 phpVueMySQL的校园论坛交流表白墙系统 项目开发技术介…

作者头像 李华
网站建设 2026/5/14 2:04:43

18、多线程与延迟上下文渲染技术详解

多线程与延迟上下文渲染技术详解 1. 多线程渲染基准测试 1.1 概述 多线程渲染是 Direct3D 11 的一项重要改进,通过延迟上下文(deferred contexts)实现。延迟上下文可创建命令列表,供即时上下文(immediate context)后续执行,能充分利用现代 PC 的多核 CPU。下面将介绍…

作者头像 李华
网站建设 2026/5/13 6:04:49

离谱!CSS类名里写SQL!前端又要“篡位”后端了?

今天在 GitHub 上看到了一个让我 “大脑宕机” 的项目。作为一个写了多年代码的开发者,我见识过把 HTML 写在 JS 里的(JSX),也见过把 CSS 写在 JS 里的(CSS-in-JS)。但我万万没想到,2025 年快到…

作者头像 李华