AAAI‘25开源 | 华科新作GGEV：实时立体匹配网络，解决泛化性难题，3大数据集SOTA！-平芜编程栈

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Generalized Geometry Encoding Volume for Real-time Stereo Matching

作者：Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang

机构：Huazhong University of Science and Technology

原文链接：https://arxiv.org/abs/2512.06793

代码链接：https://github.com/JiaxinLiu-A/GGEV

1. 导读

实时立体匹配方法主要致力于提升在特定数据域内的性能，但往往忽视了泛化能力在现实应用中的重要性。相比之下，最近的立体匹配基础模型利用单目基础模型来提升泛化能力，但这些模型通常会面临较大的推理延迟问题。为了解决这一矛盾，我们提出了“广义几何编码体积”这一新型实时立体匹配框架，该框架能够有效提升模型的泛化能力。首先，我们提取出具有深度感知能力的特征，这些特征能够编码出与数据域无关的结构先验信息，为后续的成本聚合过程提供指导；随后，我们引入了“深度感知动态成本聚合”模块，该模块能够将这些先验信息动态地融入到每个差异值假设中，从而有效增强模型在未见过场景中的匹配能力。这两个步骤都设计得较为轻量级，且相互补充，共同构成了这个具有强大泛化能力的框架。实验结果证明，我们的GGEV在零样本泛化能力方面超越了所有现有的实时立体匹配方法，并在KITTI 2012、KITTI 2015以及ETH3D等基准测试中取得了顶尖的性能表现。

2. 效果展示

零样本泛化能力对比。所有模型均基于 Scene Flow 进行训练，并在 KITTI、Middlebury和 ETH3D 上进行测试。GGEV的泛化能力可与 RT-IGEV 相媲美，同时还能在未见过的场景中展现出更佳的泛化效果。

3. 引言

立体匹配旨在从一对校正后的立体图像中估计出密集的、逐像素的视差图。作为计算机视觉领域一项长期存在且颇具挑战性的任务，它在众多应用中发挥着基础性作用，这些应用包括三维重建、自动驾驶以及机器人导航。这些现实场景对泛化能力和推理延迟都提出了严格要求。

现有的实时立体匹配方法采用了各种策略来实现快速推理。这些策略包括使用下采样或稀疏代价体表示、轻量级聚合网络，以及用二维卷积替代计算成本高昂的三维卷积。然而，大多数现有方法严重依赖清晰且明确的匹配线索，并且在未见领域中难以有效地聚合信息，特别是在遮挡区域、无纹理区域、重复模式区域以及细小结构区域等具有挑战性的区域。推荐课程：从0到1手搓一套六轴机械臂：理论+仿真实践（提供源码）。

近期的方法将单目基础模型（Monocular Foundation Models，MFMs）引入立体匹配中，取得了显著的零样本泛化性能。FoundationStereo设计了一个更高容量的聚合网络，以更好地利用单目先验。MonSter采用了一种双分支架构，该架构可迭代地优化单目和立体视差估计。这些方法通常依赖成本高昂的主干网络来提取丰富且详细的特征以构建代价体，并采用复杂的迭代机制来解决单目和立体之间的尺度偏移问题。

尽管这些方法能够提高泛化能力，但它们往往忽视了推理延迟在现实应用中的关键重要性。为此，一个引人思考的问题出现了：如何设计一个实时立体匹配网络，在保持高精度的同时实现强大的泛化能力？

为了回答这个问题，我们分析了当前几何编码体的局限性，并确定了两个关键问题：1）不同视差假设下的关键区域差异显著；2）由于未见纹理、遮挡、重复模式和细小结构的影响，这些区域内的匹配关系极为脆弱（见图 3）。

在本文中，我们提出了广义几何编码体（Generalized Geometry Encoding Volume，GGEV），这是一种实时立体匹配网络，它通过将单目基础模型高效地融入代价聚合过程，以增强代价体表示。具体而言，所提出的 GGEV 首先通过一个轻量级融合网络，整合从 Depth Anything V2中提取的纹理特征和深度特征，从而构建深度感知特征，获得可靠的结构先验，有助于稳定脆弱的匹配关系。与传统的沙漏型聚合网络对所有视差假设进行统一处理不同，我们的方法自适应地将深度结构先验融入对应的视差假设中，从而增强了代价体的结构表示和泛化能力。具体来说，我们首先计算每个视差假设与深度特征图之间的亲和矩阵，其中视差假设提供位置线索，深度特征提供丰富的结构上下文。然后，利用这些亲和矩阵生成动态卷积核，这些卷积核自适应地过滤拼接后的视差假设和深度特征。此外，我们结合了大卷积核和小卷积核，以捕获互补的低频和高频信息。

我们提出的 GGEV 在域内精度和零样本泛化能力方面均优于所有现有的实时立体匹配方法。它在 KITTI 2012、KITTI 2015 和 ETH3D 基准测试上取得了最先进的成果。值得注意的是，即使仅在合成场景流（Scene Flow）数据集上进行训练，GGEV 也能展现出对现实场景的强大跨域泛化能力，如图 1 所示。

4. 主要贡献

总之，我们的主要贡献如下：

• 我们提出了一种新颖的广义几何编码体，该编码体以轻量级的方式高效地整合深度先验，以增强泛化能力。

• 我们提出了一个深度感知动态代价聚合（Depth-aware Dynamic Cost Aggregation，DDCA）模块，该模块根据视差假设与深度特征之间的亲和性自适应地生成动态卷积核。

• 我们的方法即使仅在合成数据集上进行训练，也能展现出对现实场景的强大泛化能力。

• 我们的方法在 KITTI 2012、KITTI 2015 和 ETH3D 等公共基准测试上优于现有的实时方法。

5. 方法

我们提出的 GGEV 概述。选择性通道融合（Selective Channel Fusion，SCF）模块将纹理特征与深度特征融合，作为代价聚合的指导。然后，深度感知动态代价聚合（DDCA）模块自适应地融入深度结构先验，以增强初始代价体中脆弱的匹配关系，从而生成广义几何编码体。

6. 实验结果

为了证明我们方法的卓越性能，我们在三个广泛使用的立体基准测试上与先前的方法进行了全面比较：KITTI 2012、KITTI 2015 和 ETH3D。微调设置见补充材料。

KITTI。如表 2 ，在所有实时模型中，我们的方法取得了第一名的性能。在 KITTI 2012 上，我们提出的 GGEV 在 2-noc 和 3-noc 指标上分别比 RTIGEV 和 BANet-3D 提高了 13%。在 KITTI 2015 上，我们提出的 GGEV 在 D1-bg 和 D1-all 指标上均取得了最佳性能。

ETH3D。如表 3 ，我们的 GGEV 在所有评估指标上均显著优于所有现有的实时立体匹配方法，每个指标上的误差减少了近 50%。值得注意的是，我们的方法在 Bad 1.0 指标上超越了 GMStereo 和 Selective-IGEV，同时推理时间不到它们的四分之一。

7. 总结 & 未来工作

我们提出了 GGEV，这是一种实时立体匹配框架，实现了令人印象深刻的零样本泛化能力。所提出的选择性通道融合和深度感知动态代价聚合模块提取深度感知特征作为广义结构指导，并自适应地聚合特定视差的关键区域，共同生成广义几何编码体。实验结果表明，我们的方法始终优于所有现有的实时方法。未来的工作可以探索利用度量深度基础模型来提供更准确的深度指导，或者将我们的方法扩展到实时视频立体匹配。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~