news 2026/4/14 17:05:58

【论文翻译】NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文翻译】NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation

文章目录

  • NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation——NaviDiffusor:用于视觉导航的代价引导扩散模型
  • 摘要
  • I. 介绍
  • II. 相关工作
    • A. 视觉导航
    • B. 用于规划的扩散模型
  • III. 方法
    • A. 代价引导扩散模型
    • B. 代价引导
    • C. 从生成的候选路径中选择
  • IV. 实验
    • A. 环境设置
    • B. 模拟实验
    • C. 现实世界实验
  • V. 结论

NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation——NaviDiffusor:用于视觉导航的代价引导扩散模型

摘要

—视觉导航是移动机器人领域的一项基本挑战,需要通用的策略来处理多样的环境。经典方法利用几何解法来最小化特定代价,虽然具备对新场景的适应性,但由于其多模块设计和对人工规则的依赖,容易产生系统误差。基于学习的方法虽然实现了较高的规划成功率,但在泛化到训练数据以外的未见环境时面临困难,且通常需要大量的训练。为了解决这些局限性,我们提出了一种混合方法,结合了基于学习的方法和经典方法用于纯RGB视觉导航的优势。我们的方法首先在多样的路径-RGB观测对上训练一个条件扩散模型。在推理过程中,它集成了可微的场景特定和任务级代价的梯度,引导扩散模型生成满足约束的有效路径。这种方法免除了重新训练的需求,提供了一种即插即用的解决方案。在模拟和现实世界场景中进行的室内外广泛实验表明了我们方法的零样本迁移能力,与基准方法相比,实现了更高的成功率和更少的碰撞。代码将发布在 https://github.com/SYSU-RoboticsLab/NaviD。


I. 介绍

视觉导航 [1], [2] 是机器人领域的一项基本挑战,广泛存在于我们的日常生活中,例如无人配送,这要求对多样和未见环境具有适应性。虽然在已有预建地图的结构化环境中取得了显著进展,但在没有先验信息的情况下,仅基于有限的单目RGB观测在未知环境中进行路径规划仍然充满挑战。为了安全高效地导航,机器人必须实时生成无碰撞路径,利用可用的观测结果到达目标,尽管场景信息不完整。

以往的经典导航方法通常将流程分为感知、建图和路径规划,其中路径规划模块通常依赖采样或优化技术来最小化设计的代价函数 [3], [4]。虽然这些方法规划有效且泛化性好,但它们需要一个模块化的过程来管理实时感知,维护高质量地图,然后搜索有效路径。然而,模块化设计通常在每个阶段都会遭受信息丢失,降低了在多样和复杂环境中的整体鲁棒性,并导致对周围环境的不切实际的建模。

最近的端到端学习方法 [5], [6], [7],包括强化学习和模仿学习,通过探索集成流程来缓解这些问题,这些流程从大规模数据或与模拟环境的交互中学习,直接从感知信息生成动作或路径。这使得网络能够形成对各种场景的先验理解,并将其映射到有效动作。在实践中,此类基于学习的方法可以快速响应并实现高性能。尽管取得了成功,但它们在训练期间未遇到的分布外场景中面临泛化和稳定性的挑战。此外,与零样本经典方法不同,这些方法需要海量的高质量数据和巨大的训练成本。鉴于经典方法和基于学习的方法的局限性,我们提出以下问题:

如何以无缝且高效的方式弥合视觉导航中经典代价设计与端到端学习方法之间的差距?

我们的核心思想是通过定制的代价引导,将经典的显式约束引入隐式表示的推理阶段。我们首先在大规模的路点(waypoint-based)路径及其对应的RGB观测样本上训练一个条件生成模型(即扩散模型 [8]),以对路径规划先验进行建模。在采样过程中,训练好的扩散模型通过k kk步迭代去噪来生成路径。这提供了一个独特的机会,可以通过结合经典规划器中的任务级和场景特定代价来引导扩散模型,确保路径满足场景约束,同时保留其多模态性(multimodality),如图1所示。

我们在各种场景中进行了实验,包括室内和室外场景,以及不同的目标模态(即图像目标和点目标)[9],使用两种机器人具身(embodiments)来展示我们的方法在实时生成有效路径并在现实世界中部署的有效性。广泛的结果和分析表明,我们的方法在生成无碰撞路径方面优于基准方法,特别是在具有多个随机障碍物的未知场景中。消融研究进一步表明,代价引导在保证生成路径的分布满足场景约束方面起着不可或缺的作用。

综上所述,我们的主要贡献有:

  • 我们介绍了一种结合经典方法和基于学习方法的视觉导航新框架,通过结合设计代价的梯度来引导学习到的扩散模型的推理阶段。
  • 我们的方法在从模拟到现实世界的多样化场景中具有良好的泛化能力,并且提出的路径选择策略从多模态路径分布中选择合适的候选路径,以最小化路径波动。
  • 我们进行了广泛的实验,以证明我们的方法在生成多模态无碰撞路径和现实世界部署方面的有效性。

图 1. 机器人需要根据给定的 RGB 观测导航到目的地(即图像目标或点目标)。我们结合了碰撞和目标代价引导来改进局部路径生成。


II. 相关工作

A. 视觉导航

导航在移动机器人领域已被广泛探索。经典导航方法通常将导航视为一个几何问题,分解为两个阶段:i) 使用 SfM 或 SLAM [10], [11], [12], [13] 感知并构建周围环境的地图,以及 ii) 基于采样或优化 [14], [15], [16] 规划通往目标的无碰撞路径。在使用视觉输入进行建图的情况下,诸如 [11], [17], [18] 等方法从视觉观测中提取特征以执行同时定位与建图(Simultaneous Mapping and Localization)[19]。

最近的工作将研究兴趣转向开发直接从感知信息(即 RGB、深度等)推断动作的端到端策略 [20], [21], [22], [23], [24], [25]。这些工作展示了卓越的性能,为学习用于目标导向探索的语义先验提供了机会 [26],但它们需要大数据集和大量的训练才能迁移到新场景。

在仅有 RGB 输入的情况下,在没有先验信息(即 GPS、位置、地图等)的未见环境中进行视觉导航仍然面临重大挑战。Zhu 等人 [27] 采用强化学习来解决目标驱动的视觉导航问题,旨在基于给定的目标图像在小型室内场景中搜索目标。[28] 和 [29] 通过结合语义分割和空间注意力技术增强了视觉表示。ViNT [7] 提出了一种带有拓扑图的基础模型(foundation model),用于长程视觉导航。然而,这些基于学习的方法在训练期间未覆盖的未见场景中面临泛化性和可靠性的挑战。相比之下,我们的方法寻求将经典方法的优势与端到端学习相结合,从而在各种视觉导航任务中实现可泛化且可靠的性能。

B. 用于规划的扩散模型

扩散模型已成为具有稳定训练特性的强大生成模型,并在各个机器人领域展示了卓越的多模态生成能力 [30], [31], [32], [33]。在规划和控制方面,Janner 等人 [34] 利用扩散模型在给定环境中直接推断高维轨迹。Diffusion Policy [35] 进一步探索了扩散模型的应用,以学习用于行为克隆的视觉运动控制策略。

最近的工作也展示了扩散模型在视觉导航背景下的潜力。特别是,ViNT [7] 使用扩散作为子目标提议模型(subgoal proposal model)来生成子目标图像,而 NoMaD [36] 类似于 Diffusion Policy [13],采用扩散在视觉观测的条件下直接推断多模态动作。与纯端到端方法不同,我们探索了一种混合方法,将场景特定的显式几何和任务级约束与来自预训练扩散模型的隐式局部路径建模相结合,以生成满足特定任务要求的有效路径。


III. 方法

任务描述:在这项工作中,我们旨在设计一种用于视觉导航的局部路径规划策略。机器人被提供来自过去移动观测的 RGB 序列O = { I t } t = T − s T O = \{I_t\}_{t=T-s}^TO={It}t=TsT,目标是生成未来的路点(waypoint-based)路径P = { W t } t = T T + n P = \{W_t\}_{t=T}^{T+n}P={Wt}t=TT+n以引导机器人到达目标。我们考虑两种类型的目标:i) RGB 图像目标G I G_IGI和 ii) 点目标G P G_PGP。该策略可以获取目标信息,并通过提供安全、合理且无碰撞的路径,自适应地导航到目的地。

概述:我们将局部路径规划公式化为一个条件生成建模问题(第 III-A 节),并从成对路径和 RGB 观测的大规模数据集D = { ( P i , O i ) } i = 1 n D = \{(P_i, O_i)\}_{i=1}^nD={(Pi,Oi)}i=1n中训练一个扩散模型Φ θ \Phi_\thetaΦθ来学习先验p θ p_\thetapθ。如图 2 所示,所提出的流程在扩散过程中引入了代价引导(第 III-B 节)。我们的目标是在观测O OO(以及图像目标G I G_IGI,如果适用)的条件下,通过代价引导的扩散模型Φ θ \Phi_\thetaΦθ采样一组路径候选。具体而言,我们将路径的任务级目标和场景特定约束构建为可微代价F ( P ; O ) F(P;O)F(P;O),利用其梯度∇ F ( P ; O ) \nabla F(P;O)F(P;O)迭代引导扩散模型Φ θ \Phi_\thetaΦθ的逆向去噪过程。最后,我们在特定约束下增强生成的路径候选的性能,并基于路径估计器选择最佳路径进行实施(第 III-C 节)。

图 2. 流程概览:RGB 观测和图像目标经由两个编码器Ψ O \Psi_OΨOΨ G \Psi_GΨG处理,随后输入 Transformer,作为扩散模型的条件。设计的代价函数的梯度∇ F \nabla FF被纳入每个去噪步骤,以引导局部路径生成。对于长程导航,使用高层策略(如拓扑地图)来提供子目标,同时支持图像和点目标。

A. 代价引导扩散模型

给定具体设计良好的可微代价,一种直观的方法是直接在路点路径上执行梯度下降。然而,路径分布的多模态性质很容易导致梯度下降方法陷入局部极小值,并且也使得训练基于回归的模型变得不可行。因此,我们将收集的数据集蒸馏为一个条件生成模型Φ θ \Phi_\thetaΦθ。受分类器引导(classifier guidance)[8] 的启发,我们在采样阶段结合设计的代价函数来引导扩散过程。这种方法将生成引导至满足特定约束的路径,从而在多模态多样性和场景特定引导之间实现平衡。

1) 扩散模型:我们采用扩散模型 [37], [38],这类概率生成模型以其稳定的训练和在条件生成建模方面的前景能力而闻名,通过预测添加到样本中的噪声来对条件分布p f ( P ∣ O ) p_f (P|O)pf(PO)进行建模。训练过程涉及从数据集中采样数据点。对于每一对图像观测O OO和路径P PP,我们在时间参数t ∈ [ 0 , 1 ] t \in [0, 1]t[0,1]上启动一个连续扩散过程{ P ( t ) } t = 0 1 \{P(t)\}_{t=0}^1{P(t)}t=01。特别是,我们随机采样一个时间步t tt,并采样一个高斯噪声ϵ t \epsilon_tϵt添加到P 0 P_0P0以产生扰动样本P t P_tPt。图像观测O OO被视为条件,损失函数定义如下:
L = MSE ( ϵ t , Φ θ ( O , P t , t ) ) (1) \mathcal{L} = \text{MSE}(\epsilon_t, \Phi_\theta(O, P_t, t)) \tag{1}L=MSE(ϵt,Φθ(O,Pt,t))(1)
当最小化目标L \mathcal{L}L时,最优噪声预测网络Φ θ ∗ ( P , t ∣ O ) \Phi^*_\theta (P, t|O)Φθ(P,tO)逼近噪声的梯度场∇ E ( P ) \nabla E(P)E(P)

在测试阶段,为了从训练好的扩散模型Φ θ \Phi_\thetaΦθ生成路径,我们采用 DDPM [37] 执行t tt步迭代去噪,从采样自高斯噪声的扰动样本P t P_tPt开始,直到获得最终的无噪声样本P 0 P_0P0,如下式所述:
P t − 1 = α ( P t − γ Φ θ ( O , P t , t ) + N ( 0 , σ 2 I ) ) (2) P_{t-1} = \alpha(P_t - \gamma\Phi_\theta(O, P_t, t) + \mathcal{N}(0, \sigma^2I)) \tag{2}Pt1=α(PtγΦθ(O,Pt,t)+N(0,σ2I))(2)
其中N ( 0 , σ 2 I ) \mathcal{N}(0, \sigma^2I)N(0,σ2I)表示每次迭代添加的高斯噪声,α , γ , σ \alpha, \gamma, \sigmaα,γ,σ是函数的噪声调度,可以视为梯度下降过程中的超参数。

2) 代价引导采样:在采样阶段,我们结合场景特定和任务级代价函数F ( P ; O ) F(P;O)F(P;O)来引导逆向扩散过程朝向满足特定约束的期望路点路径。受 [8], [39], [40] 的启发,我们通过利用显式代价表示(称为代价引导)扩展了基于分类器的引导。具体来说,分类器梯度∇ p ϕ \nabla p_\phipϕ被替换为代价函数的梯度∇ F ( P ; O ) \nabla F(P;O)F(P;O),该梯度被迭代计算并添加到在第t tt个时间步由扩散模型预测的中间路径P t P_tPt上进行引导。详细的提议过程总结在算法 1 中。

算法 1:给定扩散模型Φ θ \Phi_\thetaΦθ和设计目标F ( P ; O ) F(P;O)F(P;O)的代价引导逆向扩散采样
1: 输入: 设计目标F ( ⋅ ) F(\cdot)F(),协方差调度Σ t \Sigma_tΣt,以及梯度尺度s t s_tst
2: 初始化: 学习到的扩散网络Φ θ \Phi_\thetaΦθ,接收到的视觉观测O OO
3:P T ← P_T \leftarrowPTN ( 0 , I ) \mathcal{N}(0, I)N(0,I)中采样
4: 对于所有t = T t = Tt=T1 11执行
5:P t − 1 ∼ N ( Φ θ ( P , t ∣ O ) + s t ∇ P F ( P ; O ) , Σ ) \quad P_{t-1} \sim \mathcal{N}(\Phi_\theta(P, t|O) + s_t\nabla_P F(P;O), \Sigma)Pt1N(Φθ(P,tO)+stPF(P;O),Σ)
6: 结束循环7: 返回P 0 P_0P0

B. 代价引导

第 III-A.2 节介绍了从设计的代价函数计算梯度以引导路径采样过程。评估生成路径质量的代价函数由两个可微部分组成:目标代价F g F_gFg和碰撞代价F c F_cFc

1) 点目标代价引导:对于机器人需要导航到点目标的任务,生成的路径分布应指向特定点。因此,我们将目标代价F g F_gFg定义为路径P PP的最终路点与点目标G p G_pGp之间的欧几里得距离,公式如下:
F g ( P ) = ∥ W 0 − G p ∥ 2 , W 0 ∼ P (3) F_g(P) = \|W^0 - G_p\|_2, \quad W^0 \sim P \tag{3}Fg(P)=W0Gp2,W0P(3)
其中W t 0 W^0_tWt0表示采样阶段扩散模型生成的中间路径中的最后一个路点。
图 4 展示了目标引导在扩散过程中的效果。从左到右,随着我们增加引导尺度s ss,提供了更多的目标代价引导,提高了到达指定点目标的性能,但减少了生成路径的多样性。因此,我们可以通过调整尺度来平衡多样性和精度。

2) 碰撞代价引导:为了增强导航中的避障性能,一种直接的方法涉及使用深度相机或 LiDAR 等传感器的深度信息来构建周围环境地图,并检查路径是否与障碍物碰撞或距离过近。然而,在仅使用 RGB 输入的视觉导航中,真实的深度信息是不可用的。我们通过采用最先进的单目深度估计方法 Depth Anything V2 [41] 从 RGB 观测中估计深度来解决这个问题。然后,基于估计的深度图像,我们实时重建周围环境并构建局部截断符号距离函数 (TSDF) [42],以标记环境中每个位置到障碍物表面的距离。然后使用高斯滤波器对局部 TSDF 进行平滑处理以使其可微,从而创建具有非负代价值的代价图C CC。图 3 可视化了估计的深度图像和相应的局部 TSDF 代价图,显示了该方法在重建附近环境方面的有效性。为了适应各种机器人具身,碰撞代价F c F_cFc不仅考虑路径P PP上的每个路点,还考虑距离路径σ R \sigma_RσR处的垂直点,其中σ R \sigma_RσR代表机器人宽度的一半。所有点都投影到代价图上以获得它们各自的代价值。碰撞代价F c F_cFc公式如下:
F c ( P ) = ∑ t = 1 n k t [ C ( W t ) + C ( W t + σ R ) + C ( W t − σ R ) ] (4) F_c(P) = \sum_{t=1}^n k_t [C(W_t) + C(W_t + \sigma_R) + C(W_t - \sigma_R)] \tag{4}Fc(P)=t=1nkt[C(Wt)+C(Wt+σR)+C(WtσR)](4)
其中W t W_tWt表示路径中的所有路点,k kk代表每个路点的代价影响因子。

总体而言,作为扩散引导的可微路径代价F FF,被公式化为目标代价F g F_gFg和碰撞代价F c F_cFc的组合:
F ( P ) = α F g ( P ) + β F c ( P ) (5) F(P) = \alpha F_g(P) + \beta F_c(P) \tag{5}F(P)=αFg(P)+βFc(P)(5)
其中α , β \alpha, \betaα,β是用于调整代价中各项尺度的超参数。

图 3. 在 Stanford 2D-3D-S 环境中从 RGB 观测生成的示例估计深度及其局部 TSDF 代价图。

图 4. 不同引导尺度的效果:引导尺度从左到右递增,对于每个尺度,我们采样了 50 条有引导的路径(红色)和 50 条无引导的路径(蓝色)。

C. 从生成的候选路径中选择

扩散模型的性质使其能够在给定观测的情况下生成多模态路径。连续时间步之间突兀的路径选择可能导致轨迹不稳定和规划失败。如图 1 所示,当遇到障碍物时,路径分布变得过度偏离,导致生成的路径在短时间内在左右分布之间快速切换,这可能导致规划失败。为了缓解这个问题,确保路径的一致性和平滑性至关重要。

一致性:为了确保决策一致性,机器人的行驶方向应在相似的感知和目标条件下,在连续时间步之间保持稳定,避免快速波动。设S t = { P 0 t , P 1 t , . . . , P n t } S_t = \{P_0^t, P_1^t, ..., P_n^t\}St={P0t,P1t,...,Pnt}表示在时间t tt生成的n nn条路径,P h P_hPh表示在先前时间步选择的路径。设V = { P ∣ δ ( P t , P h ) < ϵ , P ∈ S t } V = \{P | \delta(P_t, P_h) < \epsilon, P \in S_t\}V={Pδ(Pt,Ph)<ϵ,PSt},其中δ \deltaδ测量方向差异,ϵ \epsilonϵ是差异阈值,V VV中的路径表示与历史时间的路径一致的可选动作。S t S_tStV VV的比例确保了所选路径保持一致。

连续性:扩散模型生成的路径缺乏时间连续性,导致运动过程中的犹豫。基于一致性的路径选择允许使用历史路径的运动趋势来校正当前的动作状态,提供更好的连续性。这是通过对来自历史和当前时间步的最终选定路径点应用加权平均滤波来实现的。


IV. 实验

在本节中,我们通过模拟和真实世界实验,在两种目标模态和三个难度级别下,涵盖室内和室外环境,全面评估我们的方法。在接下来的部分中,将提供任务设置、评估指标和实验结果的概述。

A. 环境设置

数据集:为了公平比较,我们的方法和所有基准方法使用相同的数据集进行训练。遵循 [36],训练数据包括从各种环境和不同机器人平台收集的示例,包括 RECON [43]、SCAND [44]、GoStanford [45] 和 SACSoN [46]。具体而言,数据集包含连续帧的图像序列,并附有相应的位置数据。

模型训练:训练过程使用带有学习率调度器的 AdamW 优化器进行管理,训练批次大小为 256。训练过程在单个 NVIDIA RTX TITAN 上进行,大约需要 39 小时收敛。在采样过程中,步数k kk配置为 10。

基准方法:我们将我们的工作与两个 SOTA 基准方法(NoMaD [36], ViNT [7])在图像目标导航任务中进行比较。遵循 [7],我们通过添加线性层和激活函数来扩展这两个基准方法以适应点目标输入,这些层将输入的目标坐标映射到它们共享的 token 空间。

指标:我们报告三个评估指标:长度(Length),成功任务的路径长度的均值和方差;碰撞(Collision),每次试验的平均碰撞次数;成功率(Success),在相同条件下的成功率,如果机器人未能到达目的地或因碰撞被卡住、超过时间限制,则试验终止并标记为失败。

实验设置:我们在室内和室外模拟环境中将我们的方法与基准方法和消融实验进行了比较,证明了我们方法的有效性。此外,我们将我们的方法应用于机器人,以展示其在现实世界应用中的性能。该模型在部署于机器人上的 Nvidia Jetson Orin AGX 上运行,仅使用 RGB 输入。对于图像目标任务,我们仅使用碰撞代价引导。对于位置目标任务,我们同时采用目标代价和碰撞代价进行引导。路径选择被应用于这两种任务中。我们将默认参数设置为α = 0.3 \alpha=0.3α=0.3θ = π / 4 \theta=\pi/4θ=π/4,碰撞代价的权重为 0.006,目标代价的权重为 0.03。对于碰撞代价,应用了非均匀权重缩放,给每个点赋予一个额外的权重系数,从近距离到远距离线性地从 0 增加到 1。在现实世界实验中,机器人的线速度和角速度分别为0.5 m / s 0.5m/s0.5m/s0.4 r a d / s 0.4rad/s0.4rad/s

图 5. 在 2D-3D-S 和 Citysim 环境的基础和额外障碍物设置下,所提出的 NaviDiffusor(红色)与基准方法 NoMaD(蓝色)之间的路径定性比较。我们的方法避开了未出现在拓扑地图中的额外障碍物,而基准方法则失败了。

B. 模拟实验

我们在两种类型的场景中进行模拟实验(图 5):i) 室内(Stanford 2D-3D-S [47])ii) 室外(Gazebo citysim [48])。在每个场景中,我们考虑了基础导航任务和目标更远的长距离任务(测试期间不引入额外障碍物),以及更具挑战性的障碍物任务,其中包括拓扑结构和训练数据集中未知的随机新障碍物。如图 5 所示,两种方法在没有障碍物的基础任务中表现出相当的性能。在带有随机障碍物的挑战性任务中,所提出的引导方法始终能避免碰撞并到达目的地,而基准方法经常被随机的未知障碍物卡住。

表 I 展示了进一步综合评估的结果。我们通过在两种类型的场景中为每个任务运行所有备选方案的 50 次试验,定量评估了我们提出的方法、基准方法和消融实验。

表 I
所提出的 NAVIDIFFUSOR 与基准及消融实验之间的定量比较

目标类型场景方法基础任务
长度 (m)
基础任务
碰撞
基础任务
成功率
障碍物任务
长度 (m)
障碍物任务
碰撞
障碍物任务
成功率
长距离任务
长度 (m)
长距离任务
碰撞
长距离任务
成功率
图像目标室内
(2D-3D-S)
ViNT [7]41.1 ± 3.1720.6668%21.4 ± 0.3140.7342%152.3 ± 31.5901.0234%
NoMaD [36]42.9 ± 3.2830.3786%20.3 ± 0.2430.9858%154.2 ± 27.3810.7440%
本文方法 (无引导)42.2 ± 3.2810.0582%20.0 ± 0.2440.4352%149.4 ± 27.2570.8340%
本文方法42.7 ± 3.2780.04100%19.5 ± 0.2150.08100%147.5 ± 24.3020.4274%
室外
(Citysim)
ViNT [7]87.8 ± 21.5970.2258%67.7 ± 26.0310.4238%258.1 ± 64.1850.7720%
NoMaD [36]89.4 ± 15.3480.1378%68.1 ± 26.2590.3454%247.6 ± 67.6790.5836%
本文方法 (无引导)83.5 ± 13.9720.1878%64.7 ± 20.8460.3848%230.5 ± 59.3840.6942%
本文方法70.8 ± 9.5610.0298%53.3 ± 14.2790.0392%187.6 ± 38.1860.2868%
点目标室内
(2D-3D-S)
ViNT-P40.4 ± 1.3990.1262%21.2 ± 0.2400.8638%152.3 ± 29.5260.9250%
NoMaD-P41.5 ± 1.4920.0880%21.7 ± 0.2510.7446%144.2 ± 21.1210.5572%
本文方法 (无引导)41.8 ± 1.4860.0776%21.6 ± 0.2470.6142%147.5 ± 21.0820.5974%
本文方法38.4 ± 0.7670.01100%18.7 ± 0.1340.0792%135.7 ± 17.0820.2886%
室外
(Citysim)
ViNT-P68.1 ± 5.4990.1272%55.7 ± 12.5890.6834%216.5 ± 39.1590.6634%
NoMaD-P69.5 ± 5.6580.0988%57.9 ± 13.1090.6242%203.8 ± 49.5610.5748%
本文方法 (无引导)69.1 ± 5.6890.0886%56.8 ± 12.8410.5838%197.5 ± 42.9820.5548%
本文方法64.2 ± 1.8620.01100%48.8 ± 3.2670.0286%169.5 ± 25.3490.2182%

− P -PP表示基准模型的扩展,以适应点目标输入。
针对所有场景下的每个任务,所有方法均进行了 50 次试验。

1) 图像目标导航:在室内场景的图像目标任务中,NaviDiffusor 表现异常出色。在没有引导的情况下,它实现了 82% 的成功率,接近 NoMaD 的 86%。在有引导的情况下,NaviDiffusor 达到了 100% 的成功率,超过了所有其他方法。在障碍物任务中,它显著减少了碰撞,平均仅为 0.08 次,同时保持了 100% 的成功率。在长距离任务中,NaviDiffusor 在路径规划方面表现出色,以最低的碰撞率和最高的成功率取得了最佳结果。

在室外场景中,NaviDiffusor 也显示出明显的优势。在基础任务中,它在有引导的情况下实现了 98% 的成功率,以更短的路径长度优于其他方法。在障碍物任务中,它以仅 0.08 次碰撞保持了 100% 的成功率,远好于 NoMaD 的 54%。在长距离任务中,NaviDiffusor 保持稳定高效,实现了 68% 的成功率,在复杂环境中领先于其他方法。与其他方法相比,路径选择策略使我们的方法在路径长度上表现出更实质性的改进,如图 5 中增强的路径稳定性所证明的那样。

2) 点目标导航:NaviDiffusor 在点目标任务中也表现出色。在室内场景的基础任务和障碍物任务中,它都实现了 100% 的成功率,其路径规划的准确性和鲁棒性明显优于 NoMaD 和其他基准方法。在室外场景的长距离任务中,NaviDiffusor 保持了 82% 的成功率,与其他方法相比具有更低的碰撞率和更优的路径规划质量。

总体而言,NaviDiffusor 在不同场景和任务中均表现出色,特别是在障碍物密集和长距离导航任务中,其成功率和避障能力显著优于 NoMaD 等基准方法。这表明 NaviDiffusor 在解决复杂导航任务方面具有很强的适应性和鲁棒性,使其成为一种高效可靠的路径规划方法。值得注意的是,在消融研究中,我们没有代价引导的方法显示出性能的显著下降,特别是在具有挑战性的场景中。

图 6. 轮腿式机器人在室外和室内场景中进行现实世界实验的定性结果。可视化了四个规划事件,包括有引导(黄色)和无引导(蓝色)的情况。

C. 现实世界实验

接下来的实验展示了我们的方法在使用轮腿式机器人 Diablo [49] 和 Jackal 在现实世界场景中的有效性,两者都仅配备了 Intel Realsense D435i 用于 RGB 观测。

如图 6 所示,引导显著改善了路径规划。在没有引导的情况下,机器人的路径(蓝色曲线)更加不确定,偏差在室外尤为明显。在复杂的室内环境中,路径效率低下且容易发生碰撞,尽管仍能到达目标。这表明 NaviDiffusor 可以在没有引导的情况下规划可行的路径,但稳定性和效率会降低。

在有引导的情况下,机器人在两种设置中都遵循更直接、更高效的路径,减少了发散和碰撞。这种改进在室外场景中尤为明显,机器人更直观、准确地向目标移动。引导显著提升了 NaviDiffusor 在具有挑战性的未知环境中的性能。


V. 结论

在这项工作中,我们探索了一种结合经典方法和基于学习方法优势的混合机制。具体而言,所提出的 NaviDiffusor 从具有成对 RGB 观测的大规模有效路径中学习先验,并在推理阶段直接由所提出的任务级和场景特定代价设计进行引导。这种方法利用经典方法的泛化性和鲁棒性,辅助扩散模型生成满足多种约束的路径。此外,这种方法可以为给定的观测生成多模态路径,从而促进使用特定的高层策略进行最佳路径选择,这对于在真实机器人系统中部署至关重要。我们的结果(包括现实世界实验)表明,在无需微调的情况下,该方法在更复杂的各种新场景中具有卓越的泛化能力和可靠性。

虽然实验展示了这种引导框架的有效性,但它仍然需要复杂的代价函数设计。未来的工作可以探索用于代价引导设计和参数优化的智能方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 19:35:50

普通程序员必看:该不该转型AI大模型?收藏这篇少走弯路

前言&#xff1a;AI浪潮下&#xff0c;程序员的转型焦虑与机遇 在程序员的日常交流中&#xff0c;"技术迭代"和"职业转型"永远是绕不开的话题。尤其是2023年以来&#xff0c;GPT-4、文心一言等大模型相继爆发&#xff0c;AI技术从实验室走向产业落地&#…

作者头像 李华
网站建设 2026/4/7 16:44:51

医疗挂号管理系统毕业论文+PPT(附源代码+演示视频)

文章目录医疗挂号管理系统一、项目简介&#xff08;源代码在文末&#xff09;1.运行视频2.&#x1f680; 项目技术栈3.✅ 环境要求说明4.包含的文件列表&#xff08;含论文&#xff09;数据库结构与测试用例系统功能结构后台运行截图项目部署源码下载医疗挂号管理系统 如需其他…

作者头像 李华
网站建设 2026/4/9 13:32:28

实用指南:文献怎么查——高效查找文献的方法与技巧

① WisPaper&#xff08;文献聚类 术语辅助&#xff09; 官网&#xff1a;https://www.wispaper.ai 帮助快速理解陌生领域的核心概念和研究主题。 ② Elicit 自动列出最相关论文和方法&#xff0c;为跨学科快速扫文献提供便利。 ③ Explainpaper 逐段解释论文内容&#xff0c…

作者头像 李华
网站建设 2026/4/9 4:34:37

文献检索网站有哪些:常用学术文献检索平台汇总与使用指南

① WisPaper&#xff08;文献聚类 术语辅助&#xff09; 官网&#xff1a;https://www.wispaper.ai 帮助快速理解陌生领域的核心概念和研究主题。 ② Elicit 自动列出最相关论文和方法&#xff0c;为跨学科快速扫文献提供便利。 ③ Explainpaper 逐段解释论文内容&#xff0c…

作者头像 李华
网站建设 2026/4/12 20:58:00

高可用架构下的 1688 API 接口开发与商品数据同步方案

在电商生态中&#xff0c;1688 作为核心的货源供应链平台&#xff0c;其 API 接口的稳定性和商品数据同步的时效性直接影响下游业务的运转。高可用架构下的 1688 API 开发与数据同步&#xff0c;需兼顾接口调用的可靠性、数据一致性、故障容错与性能优化。本文将从架构设计、接…

作者头像 李华
网站建设 2026/4/10 18:22:32

21、嵌入式开发环境搭建与配置指南

嵌入式开发环境搭建与配置指南 1. 交叉开发环境概述 对于刚接触嵌入式开发的开发者来说,本地开发环境和交叉开发环境的概念及差异常常令人困惑。在实际开发中,可能会用到三种编译器以及三个或更多版本的标准头文件,如 stdlib.h 。若缺乏合适的工具和基于主机的实用程序,…

作者头像 李华