自动驾驶路径规划：Google OR-Tools与Q-Learning在TSP问题上的实战对比-平芜编程栈

1. 项目概述：当经典优化算法遇上强化学习

在自动驾驶领域，尤其是像ROMIE这样的无人地面采矿采样机器人，全局路径规划（GPP）是其大脑的核心功能之一。简单来说，GPP要回答一个关键问题：“给定地图上所有必须到达的采样点，机器人应该以什么顺序访问它们，才能让总行驶距离最短？”这听起来像是一个简单的排序问题，但实际上，它正是组合优化领域里那个臭名昭著的“旅行商问题”（TSP）的现实化身。TSP是一个NP-hard问题，意味着随着采样点数量的增加，可能的路径组合会呈爆炸式增长，想找到绝对最优解的计算成本高得惊人。因此，在实际工程中，我们追求的是在有限时间内找到一个“足够好”的、接近最优的路径方案。

长期以来，解决这类问题有两类主流武器库。一类是像Google OR-Tools这样的成熟优化工具包，它封装了从贪婪算法、节约算法到克里斯托菲德斯算法等一系列经典启发式和元启发式算法，开箱即用，稳定可靠。另一类则是以强化学习（RL）为代表的新兴机器学习方法，特别是Q-Learning这类基础算法，它让智能体（我们的机器人）通过“试错”与环境交互，自己学习出最优的决策策略，充满了自适应和从数据中学习的潜力。

那么，当我们在一个真实的、对成本和效率极度敏感的采矿机器人项目（ROMIE）中，将这两类方法放在同一个擂台上较量，结果会如何？是经验老道的经典算法更胜一筹，还是灵活机敏的强化学习新秀能后来居上？这正是我们这次深度对比研究要探究的核心。本文不仅会详细拆解Google OR-Tools中几种关键算法的原理与实现，也会手把手带你理解Q-Learning是如何被应用于求解TSP的，并基于真实项目数据，给出直观的性能对比和选型建议。无论你是机器人领域的工程师、算法研究者，还是对路径优化感兴趣的技术爱好者，这篇文章都将为你提供一份来自一线的、充满实战细节的参考指南。

2. 核心问题拆解：TSP与自动驾驶路径规划

在深入算法细节之前，我们必须先厘清我们要解决的根本问题是什么，以及为什么它在自动驾驶，特别是特定场景的UGV中如此重要。

2.1 旅行商问题（TSP）的工程化表述

TSP的经典定义是：给定一系列城市（在我们的场景中是采样点）和每对城市之间的距离，找到一条访问每个城市恰好一次并最终回到起点的最短可能回路。

在ROMIE的采矿采样场景中，这个定义被具体化为：

城市：预先通过地质勘探或工程师在数字地图上标定的、必须进行土壤采样的GPS坐标点。
距离：通常是欧几里得距离（直线距离），因为在相对平坦的矿区，这是对能耗和时间的一个良好近似。当然，也可以替换为考虑地形阻力的代价。
目标：最小化机器人遍历所有采样点的总行驶距离。更短的距离意味着更少的电池消耗、更短的任务时间，从而直接转化为运营成本的降低。

其数学本质是一个组合爆炸问题。对于n个采样点，可能的哈密顿回路（访问所有点一次的环游）数量是(n-1)!/2。当n=10时，约有18万种可能；当n=15时，这个数字激增至650亿。显然，暴力穷举在现实中是不可行的。

2.2 全局路径规划（GPP）与局部路径规划（LPP）的协同

这里需要明确一个关键的系统架构概念：GPP和LPP的分工。在我们的系统中，它们是解耦的、分层工作的。

GPP（本文焦点）：它工作在“策略层”。输入是一组离散的经纬度坐标点，输出是一个访问这些点的最优（或近似最优）顺序。它不关心两个点之间机器人具体怎么走，也不处理实时障碍物。它的核心是解决TSP，生成一个“路点序列”。
LPP（底层执行）：它工作在“战术层”。接收GPP给出的下一个目标路点，利用激光雷达（LIDAR）、立体相机等传感器，实时规划出一条能够避开动态/静态障碍物、符合机器人运动学约束的平滑、安全路径。它处理的是“点对点”的导航问题。

这种分工的好处是显而易见的：GPP可以专注于复杂的组合优化，使用可能计算量较大的算法，因为它通常在任务开始前或重新规划时运行；而LPP则必须轻量、快速，以高频率运行来保证实时安全性。在我们的实现中，GPP通过ROS2消息将规划好的路点序列发布给LPP模块，后者负责执行。

2.3 为什么是Google OR-Tools和基础Q-Learning？

面对TSP，学术界和工业界有海量的算法，从精确算法（如Concorde，能求解数万个点的最优解，但计算耗时）到各种元启发式算法（遗传算法、蚁群算法等）。我们选择这两者进行对比，有其深刻的工程考量：

Google OR-Tools的代表性：它是一个高度集成化、工业级的优化工具箱。对于工程师而言，它提供了经过充分测试、稳定可靠的算法实现（如路径最便宜弧、克里斯托菲德斯、模拟退火等），允许我们快速搭建原型并进行基准测试。它代表了“传统经典方法”的工程化巅峰——不一定是最前沿的学术算法，但一定是健壮、易用、有良好支持的。
基础Q-Learning的探索价值：深度强化学习（如基于GAT、Transformer的模型）在TSP上取得了惊艳的成果，但它们通常需要大量的数据、复杂的训练和显著的算力。相比之下，基础的表格型Q-Learning和Double Q-Learning原理直观、实现相对简单，是理解RL如何解决组合优化问题的绝佳起点。我们想探究的是，在这种中等复杂度、对实时性有要求的实际机器人任务中，这种“轻量级”RL能否挑战甚至超越成熟的传统启发式方法？这为资源受限的边缘计算设备提供了另一种可能性。

注意：本研究的一个关键前提是，我们假设作业区域地形相对平坦（如非洲、澳洲的许多矿区），因此使用二维欧氏距离是合理的。如果地形起伏巨大，则需要在距离计算中引入高程代价，问题将转化为更复杂的带权图上的TSP，所有算法的距离矩阵都需要重新计算。

3. 算法原理深度剖析与实现考量

了解对手，才能更好地比赛。下面我们深入两种技术路线的内部，看看它们各自是如何“思考”并解决TSP的。

3.1 Google OR-Tools的武器库

OR-Tools为解决车辆路径问题（VRP， TSP是VRP的特例）提供了一套丰富的策略，主要分为“构造启发式”和“改进启发式”（局部搜索）两大类。

3.1.1 构造启发式：快速得到一个可行解

这些算法用于快速生成一个初始路径，虽然质量可能不高，但速度极快。

PATH_CHEAPEST_ARC (PCA)：本质上就是“最近邻”算法。从一个随机点开始，每次都贪婪地选择距离当前点最近且未访问的点作为下一个目的地。它的时间复杂度是O(n²)，简单粗暴，但对于点集分布不均匀的情况，容易在早期做出错误选择，导致最终路径远非最优。
SAVINGS：克拉克-赖特节约算法。初始状态是每个点都与起点/终点（在TSP中是同一个点）构成一条单独往返路径。算法核心是计算将两条路径合并（即连接两个路径的中间点）所能“节约”的距离：节约值 = d(起点, i) + d(起点, j) - d(i, j)。然后贪婪地合并节约值最大的路径，直到形成一条完整回路。这个算法通常能产生比最近邻更好的初始解。
CHRISTOFIDES：这是OR-Tools中提供的理论性能最有保证的构造算法。它保证了解的长度不超过最优解的1.5倍。步骤简述如下：
1. 构建所有采样点的最小生成树（MST）。
2. 找出MST中所有度为奇数的顶点（必然为偶数个）。
3. 在这些奇度顶点之间进行最小权重完美匹配（这是一个计算难点，OR-Tools内部会调用算法如Blossom V）。
4. 将匹配的边添加到MST中，形成一个所有顶点度数为偶数的欧拉图。
5. 在这个欧拉图中找到一个欧拉回路，然后通过“抄近路”跳过已访问的顶点，将其转化为哈密顿回路（TSP解）。虽然理论性能好，但其中最小权完美匹配步骤的计算复杂度较高，对于大规模点集可能较慢。

3.1.2 局部搜索与元启发式：精雕细琢

在获得一个初始解后，OR-Tools可以通过局部搜索策略对其进行迭代改进。

GREEDY_DESCENT (贪婪下降，即爬山算法)：定义一种“邻域”操作，例如2-opt（交换两条边）。算法不断检查所有可能的2-opt交换，只要某个交换能缩短总路径长度，就立即执行。直到找不到任何能改进的交换为止。它容易陷入局部最优。
SIMULATED_ANNEALING (模拟退火)：为了跳出局部最优，模拟退火允许以一定的概率接受“更差”的解。这个概率随着“温度”参数的降低而逐渐减小。初期高温时，算法有较强的全局探索能力；后期低温时，则倾向于局部求精。其核心公式为：P(接受差解) = exp(-ΔE / T)，其中ΔE是路径长度增量（正值为变差），T是当前温度。冷却计划（如何降低T）对结果影响很大。
GUIDED_LOCAL_SEARCH (引导式局部搜索)：一种更高级的元启发式。它会为当前解中“不受欢迎”的特征（例如特别长的边）增加惩罚项，从而在后续搜索中引导算法远离这些特征，探索新的区域。

实操心得：在实际使用OR-Tools时，我们通常采用“构造+改进”的组合策略。例如，先用SAVINGS或CHRISTOFIDES快速得到一个还不错的解，然后使用SIMULATED_ANNEALING进行优化。OR-Tools的API允许灵活设置搜索时间限制，这对于需要实时响应的机器人应用至关重要——我们可以在“计算时间”和“解的质量”之间进行权衡。

3.2 Q-Learning如何求解TSP？

将Q-Learning应用于TSP，需要我们将这个组合优化问题重新表述为一个序列决策问题，也就是一个马尔可夫决策过程。

3.2.1 问题建模：定义状态、动作与奖励

状态 (State)：在TSP中，一个理想的状态需要包含两部分信息：1）当前机器人所在的城市（位置）；2）已经访问过的城市集合。然而，访问集合会随着步数增长而指数级扩大，这对于表格型Q-Learning是不可行的。因此，在实际简化模型中，我们通常只将“当前城市”作为状态。这丢失了部分历史信息，属于一种“部分可观测”的近似。
动作 (Action)：从当前城市，移动到任何一个尚未访问的城市。当所有城市都被访问后，唯一的动作是“返回起点”。
奖励 (Reward)：这是引导智能体学习的关键。最直接的设计是负的移动距离。即，从状态s（城市i）执行动作a（前往城市j）后，获得的即时奖励R = -d(i, j)。这样，智能体最大化累计奖励的目标，就等价于最小化总旅行距离。在一步结束时（返回起点），可以给予一个额外的负奖励（如返回起点的距离）。

3.2.2 Q-Table与更新规则

Q-Learning的核心是维护一张Q表，Q(s, a)表示在状态s下选择动作a所能获得的长期期望回报。

初始化： Q表初始化为零或小随机数。
探索与利用：使用ε-greedy策略。大部分时间（概率1-ε）选择当前Q值最高的动作（利用），但以一个小概率ε随机选择动作（探索），这是发现潜在更优路径的关键。
更新公式：Q(s, a) = Q(s, a) + α * [R + γ * max_{a'} Q(s', a') - Q(s, a)]
- α：学习率，控制新信息覆盖旧信息的程度。
- γ：折扣因子，衡量未来奖励的重要性。在TSP中，由于总距离是各段之和，通常设γ=1，表示所有步骤的奖励同等重要。
- s'：执行动作a后到达的新状态（即城市j）。
- max_{a'} Q(s', a')：在新状态s'下，所有可能动作中的最大Q值估计。

3.2.3 Double Q-Learning的改进

标准的Q-Learning在更新时，对于max_{a'} Q(s', a')，它同时用于选择估值最高的动作和评估该动作的价值。这可能导致“最大化偏差”，即过高估计某些动作的价值。Double Q-Learning通过维护两个Q表（Q1和Q2）来解决这个问题：

以50%的概率随机选择使用Q1或Q2来选择动作（即决定a* = argmax_a Q1(s', a)或a* = argmax_a Q2(s', a)）。
用另一个表来评估这个动作的价值（即用Q2(s', a*)或Q1(s', a*)来更新）。
更新被选中的那个Q表。

这种方法可以减少偏差，通常能使学习过程更稳定，最终策略更优。

注意事项：用Q-Learning解TSP有一个显著挑战：状态-动作空间巨大。对于n个城市，状态有n个，每个状态下的合法动作平均有n/2个。这导致Q表大小为O(n²)。当n较大时（例如超过100），表格型Q-Learning的内存和训练时间都会变得难以承受。因此，在我们的实验中，它更适用于中小规模（如n<50）的TSP实例。对于更大规模的问题，需要使用函数逼近（如神经网络）来代替Q表，这就进入了深度Q网络（DQN）的领域。

4. 实验设计与实战对比分析

理论说得再多，不如实战见真章。我们基于ROMIE项目的真实采样点数据，设计了一套完整的实验来对比这些算法。

4.1 实验环境与数据集

硬件：标准工作站（Intel i7 CPU， 32GB RAM），模拟机器人机载计算机的算力水平。
软件： Python 3.8， Google OR-Tools (v9.7)，自定义实现的Q-Learning/ Double Q-Learning。
数据集：
1. 真实数据：从ROMIE历史任务中抽取的3组GPS坐标点集，规模分别为15点、30点、50点。这些点模拟了实际矿场的采样分布。
2. 基准数据：使用公开的TSPLIB库中的eil51（51个城市）和kroA100（100个城市）数据集进行压力测试和算法泛化能力评估。
评估指标：
1. 路径长度：算法求解的哈密顿回路总距离。这是核心优化目标。
2. 最优间隙：(算法解长度 - 已知最优解长度) / 已知最优解长度 * 100%。对于真实数据，我们使用OR-Tools的精确求解器（耗时较长）或已知的高质量解作为近似最优基准。
3. 计算时间：从输入坐标点到输出最终路径所花费的CPU时间。对于Q-Learning，这包括训练时间。
4. 稳定性：对于随机性算法（如SA， Q-Learning），运行多次（如20次）观察其解的质量和时间的方差。

4.2 Google OR-Tools 配置与调优

我们通过OR-Tools的RoutingModel和RoutingIndexManager来建模TSP。关键配置如下：

# 创建距离回调函数 def distance_callback(from_index, to_index): """返回两个点之间的欧氏距离""" from_node = manager.IndexToNode(from_index) to_node = manager.IndexToNode(to_index) return int(dist_matrix[from_node][to_node]) # OR-Tools要求整数代价 transit_callback_index = routing.RegisterTransitCallback(distance_callback) routing.SetArcCostEvaluatorOfAllVehicles(transit_callback_index) # 设置搜索参数 search_parameters = pywrapcp.DefaultRoutingSearchParameters() search_parameters.first_solution_strategy = ( routing_enums_pb2.FirstSolutionStrategy.PATH_CHEAPEST_ARC # 可替换为SAVINGS, CHRISTOFIDES等 ) search_parameters.local_search_metaheuristic = ( routing_enums_pb2.LocalSearchMetaheuristic.SIMULATED_ANNEALING # 可替换为GUIDED_LOCAL_SEARCH, TABU_SEARCH等 ) search_parameters.time_limit.seconds = 5 # 设置最大计算时间， 对于实时系统至关重要 search_parameters.log_search = True # 求解 solution = routing.SolveWithParameters(search_parameters)

我们测试了多种“构造策略+元启发式”的组合，例如SAVINGS + SIMULATED_ANNEALING,CHRISTOFIDES + GREEDY_DESCENT等。

4.3 Q-Learning 实现细节与训练技巧

我们的自定义Q-Learning实现要点：

状态编码：由于只使用当前城市作为状态，状态空间就是城市ID（0到n-1）。
动作屏蔽：在每个状态s，动态生成合法动作列表（未访问的城市），确保智能体不会重复访问。
奖励设计：R = -distance(s, a)。回合结束（返回起点）时，奖励额外加上-distance(last_city, depot)。
超参数选择：经过网格搜索，我们设定学习率α=0.1，折扣因子γ=0.99（略微折扣未来，鼓励尽快完成），探索率ε从0.5线性衰减到0.01，总训练回合数episodes=20000。
Double Q-Learning：实现两个独立的Q表，按上述规则交替更新。

一个训练循环的核心伪代码如下：

for episode in range(total_episodes): state = random_start_city visited = set([state]) total_distance = 0 epsilon = max(0.01, initial_epsilon * (1 - episode / total_episodes)) # 衰减探索率 while len(visited) < num_cities: # ε-greedy 选择动作 if random.random() < epsilon: action = random.choice(valid_actions(state, visited)) else: action = argmax(Q[state, valid_actions(state, visited)]) next_state = action reward = -distance_matrix[state][action] total_distance -= reward # Q-Learning 更新 future_q = max(Q[next_state, a] for a in valid_actions(next_state, visited | {next_state})) Q[state, action] += alpha * (reward + gamma * future_q - Q[state, action]) state = next_state visited.add(state) # 返回起点 reward = -distance_matrix[state][depot] total_distance -= reward # ... 更新最后一步的Q值

4.4 结果分析与洞见

我们将多次实验的平均结果汇总如下表：

算法类别	具体策略	30点真实数据 (平均)	50点真实数据 (平均)	eil51 (TSPLIB)	计算时间 (50点)	稳定性
OR-Tools	PATH_CHEAPEST_ARC (贪婪)	+15.2%	+22.7%	+18.5%	< 0.1s	高
OR-Tools	SAVINGS + GREEDY_DESCENT	+5.8%	+8.3%	+6.9%	0.3s	高
OR-Tools	CHRISTOFIDES + SIMULATED_ANNEALING	+2.1%	+3.5%	+2.8%	2.1s	中
Q-Learning	(表格型， 20000回合)	+4.5%	+9.8%	+12.1%	45s (含训练)	低
Double Q-Learning	(表格型， 20000回合)	+1.2%	+2.9%	+4.7%	48s (含训练)	中
参考基准	OR-Tools 精确求解(近似最优)	0%	0%	0%	180s+	高

关键发现与解读：

性能王者：Double Q-Learning：在中小规模（30-50点）的真实数据集上，经过充分训练的Double Q-Learning表现惊人，平均最优间隙仅为1.2%，显著优于OR-Tools中除长时间精细调优的元启发式外的其他配置。这验证了强化学习通过与环境交互，能够学习到超越简单启发式的复杂策略。
效率与质量的权衡： OR-Tools的PATH_CHEAPEST_ARC速度极快，但解的质量也最差。CHRISTOFIDES + SIMULATED_ANNEALING在给予数秒计算时间的情况下，能提供质量很高的解（~3%间隙），且稳定性远高于Q-Learning。Q-Learning的训练结果受随机种子、超参数影响较大，有时会收敛到次优解。
计算成本的差异： OR-Tools的“构造+改进”范式在推理阶段速度极快（毫秒到秒级），一旦模型建立，求解新问题几乎是瞬时的。而Q-Learning的训练阶段耗时很长（数十秒到分钟级），虽然训练好后，用Q表做决策也很快，但每个新的、不同的点集分布都需要重新训练，这限制了其在需要频繁、快速重新规划的动态场景中的应用。
规模扩展性：在eil51和kroA100测试中，随着问题规模增大，表格型Q-Learning的性能下降比OR-Tools的启发式算法更明显。这是因为状态-动作空间增大，训练更难收敛。而OR-Tools的元启发式算法（如SA）通过局部搜索，在大规模问题上依然能保持相对稳健的表现。

实操心得：这个对比揭示了一个核心工程洞见：没有“银弹”算法。如果你的应用场景是：
点集固定或变化不频繁，且对路径质量有极致要求（如芯片布线、长期固定路线物流），可以投入计算资源对特定点集进行离线训练，此时Double Q-Learning可能产出质量最高的路径。
需要频繁、快速地对新点集进行规划（如机器人每日任务不同、实时订单调度），那么OR-Tools的启发式算法是更可靠的选择。你可以通过调整time_limit参数，在“计算时间”和“解的质量”之间做灵活权衡。
对稳定性要求极高，不能接受偶尔的规划失败或质量大幅波动，成熟稳定的OR-Tools是更安全的选择。

5. 工程集成、常见问题与避坑指南

将算法集成到像ROMIE这样的真实机器人系统中，会面临许多纯学术研究不会遇到的挑战。

5.1 软件架构与ROS2集成

我们的GPP模块作为一个独立的ROS2节点运行。其工作流程如下：

服务请求：任务规划系统或人机界面通过ROS2服务调用，向GPP节点发送一组目标点（geometry_msgs/msg/PoseArray）。
算法执行： GPP节点根据配置的算法类型（如ORTOOLS_SA_SA或QLEARNING），调用相应的求解器。距离矩阵基于GPS坐标的欧氏距离预先计算好。
结果发布：求解完成后，GPP节点将规划出的有序路点序列，通过ROS2话题（nav_msgs/msg/Path）发布给LPP节点。
异常处理：模块内置超时机制。如果OR-Tools在设定时间内未找到可行解，或Q-Learning训练失败，会返回错误码并通知上游系统。

集成中的关键决策：

异步调用： GPP计算不应阻塞主线程。我们使用Python的concurrent.futures线程池，将每个路径规划任务提交到独立线程中执行。
结果缓存：对于经常重复的采样点序列（如标准作业区域），可以将规划好的路径缓存起来，避免重复计算。
参数动态配置：通过ROS2的参数服务器，可以在不重启节点的情况下动态调整算法参数（如OR-Tools的搜索时间、Q-Learning的探索率）。

5.2 常见问题排查与解决

在实际部署和测试中，我们遇到了以下典型问题及解决方案：

问题现象	可能原因	排查步骤与解决方案
OR-Tools返回“未找到解”	1. 距离矩阵中存在无穷大或非法值。 2. 回调函数返回非整数。 3. 点集规模太大，搜索时间不足。	1. 检查坐标数据，确保距离计算正确（如无除零错误）。 2. 确认距离回调��数返回`int`类型。OR-Tools内部使用整数运算。 3. 适当增加`search_parameters.time_limit`，或换用更快的构造策略（如`PATH_CHEAPEST_ARC`）。
Q-Learning训练不收敛，路径长度波动大	1. 学习率`α`过高或过低。 2. 探索率`ε`衰减太快或始终太高。 3. 奖励设计不合理。	1. 尝试不同的学习率（如0.01, 0.1, 0.5），观察损失曲线。 2. 调整ε衰减策略，确保前期充分探索，后期充分利用。 3. 确认奖励为负距离。可尝试在回合结束时增加一个大的负奖励（如果未完成所有访问）。
规划出的路径存在明显“交叉”	这是许多启发式算法的通病，陷入了局部最优。	1. 在OR-Tools中，启用更强的元启发式，如`GUIDED_LOCAL_SEARCH`或`TABU_SEARCH`。 2. 对于Q-Learning，增加训练回合数，并尝试在状态中引入更多信息（如最近访问过的k个城市），虽然这会增加状态空间。
算法在小规模上工作正常，大规模点集性能骤降	1. Q-Learning：状态空间爆炸。 2. OR-Tools：搜索空间太大，默认参数不够用。	1. 对于Q-Learning，考虑升级到使用神经网络近似的DQN，或采用分层、分治策略。 2. 对于OR-Tools，可以尝试先使用聚类算法（如K-Means）将大规模点集分成多个簇，分别规划后再连接。
实时规划延迟过高	计算耗时超出系统容忍范围。	1.降级策略：准备一个快速但次优的备用算法（如最近邻）。当主算法超时，立即启用备用方案。 2.近似求解：强制OR-Tools在更短的时间内返回当前找到的最好解。 3.硬件加速：评估是否可将部分计算（如距离矩阵计算）移至GPU。

5.3 对未来方向的思考

基于本次项目经验，我们认为在自动驾驶车辆GPP领域，算法的发展有以下几个值得关注的方向：

混合智能方法：将经典启发式算法的“快速构造”能力与强化学习的“精细优化”能力结合。例如，用OR-Tools的SAVINGS算法生成一个初始解，然后使用一个训练好的RL策略对这个解进行迭代的局部改进（学习如何选择最优的2-opt或3-opt操作）。
基于学习的构造启发式：直接使用图神经网络（GNN）等模型，接收点集作为输入，端到端地输出一个高质量的访问序列。这类方法（如Pointer Networks, Graph Attention Networks）在学术界已显示出潜力，但如何使其轻量化、适应动态环境并保证实时性，是工程化的关键。
考虑动态与不确定性：当前的TSP模型是静态、确定的。真实的矿场环境可能存在临时障碍、区域通行成本变化（如雨后泥泞）等不确定性。未来的GPP需要向随机或动态TSP演进，这就要求算法具备在线学习和快速重规划的能力。
与LPP的 tighter coupling：目前GPP和LPP是松耦合的。更先进的系统可以考虑在GPP阶段就粗略估计两点间的实际通行代价（而非直线距离），例如通过一个轻量的地形分析模块，使全局规划更符合局部导航的实际消耗。

在ROMIE项目的实践中，我们最终为系统配置了一个分层策略：在任务初始化阶段，如果时间充裕，使用Double Q-Learning进行离线训练，获取可能的最优路径；在任务执行中，若需要因临时新增采样点而重新规划，则切换到OR-Tools (SAVINGS + SIMULATED_ANNEALING)并设置一个严格的时间限制（如2秒），以保证系统的响应性。这种务实的、根据场景选择工具的思维，或许是工程落地中最宝贵的经验。