news 2026/2/11 12:07:30

IEEE RAL 2026 | 西工大 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
IEEE RAL 2026 | 西工大 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA

点击下方“大模型与具身智能”,关注我们

机器人在狭窄空间里“走位”有多难?想象一下,21个自由度的仿人机器人要在堆满障碍物的室内摘苹果、在工业管道里检测缺陷,从初始位置到目标位置,每一步都得避开碰撞,还要快、准、稳——这背后的路径规划,一直是机器人领域的老大难问题。

最近有研究团队提出了一款叫RewardRRT的全新路径规划算法,专门攻克狭窄环境下多自由度机器人的路径规划难题,不仅在仿真中把规划速度提升了8.18%~38.45%,平均规划成功率更是飙到88.25%,还在真实的苹果采摘实验中完美落地!今天就带大家扒一扒这个超实用的算法~

先来看核心的算法总体结构图(图1),这张图能帮我们快速看懂RewardRRT的核心逻辑:它把RRT算法的采样树当成“智能体”,先用奖励函数给每个采样状态打分,再靠卡尔曼滤波预测奖励变化,动态调整采样概率,最后根据预测的奖励值决定优先扩展哪棵树——不是传统的交替扩展,而是盯着奖励低的树重点“攻坚”,从根上提升探索效率。

论文信息

题目: RewardRRT: Path Planning for Multi-Degree-of-Freedom Robots in Narrow Environments
奖励RRT:面向狭窄环境中多自由度机器人的路径规划算法
作者:Qinhu Chen, Wenqiang Wang, Zeming Fan, Meilin Kang, Chuan Yu, Ho Seok Ahn

为啥传统算法在狭窄环境里不好使?

先聊聊痛点:狭窄环境里障碍物多,机器人关节又多(比如实验里的21自由度轮式仿人机器人),传统路径规划算法要么“瞎采样”,在无效区域浪费时间;要么采样概率固定,没法适应环境变化;要么双向扩展树时盲目交替,收敛慢得离谱。

就拿OMPL库中表现最好的算法来说,在狭窄场景下成功率也就58.5%,规划速度还慢,根本满足不了实际应用的需求。而RewardRRT就是冲着这些痛点来的,核心做了4件大事:

1. 给采样状态“发奖励”,再也不瞎探索

RewardRRT最核心的创新,就是给每个采样的机器人状态设计了一套“动态奖励机制”——不是靠死板的局部启发式,而是用全局的奖励信号引导探索方向。

简单说,每个采样点的“奖励分”怎么算?离目标位置越近,奖励越高;如果碰到障碍物(自碰撞或碰环境),直接扣大分;还加了“遗忘因子”,避免算法陷在局部最优里出不来。而且还设置了奖励上下限,防止个别极端采样点把整体判断带偏。

有了这个奖励机制,算法就像有了“导航仪”,不用在满是障碍物的狭窄空间里乱撞,每一次采样都朝着“高奖励”的目标位置走,探索效率直接拉满。

2. 动态调整采样概率,比“固定值”聪明多了

传统RRT算法常用固定的偏置采样概率(比如OMPL默认的0.05),但狭窄环境里,固定概率要么太保守、要么太激进。

RewardRRT用了卡尔曼滤波来解决这个问题:它把采样树的累积奖励、奖励增量当成“状态”,用卡尔曼滤波预测这些状态的变化,再通过Sigmoid函数把预测结果转换成动态的采样偏置概率。而且为了保证算法的完备性,把奖励引导采样的最大概率限制在0.9,留10%的随机采样兜底,既聪明又稳妥。

实验也证明,这种动态概率比固定概率的成功率高一大截(看图4),尤其是在工业管道这种超窄场景里,优势特别明显。

3. 不搞“平均主义”,树扩展只盯“弱势方”

传统双向RRT算法是“你扩一下、我扩一下”的交替扩展模式,不管哪棵树离目标近、哪棵树探索效率低,都一视同仁。

RewardRRT直接打破这种模式:先用卡尔曼滤波预测两棵树(从初始点出发的树、从目标点出发的树)的累积奖励,谁的预测奖励低,就优先扩展谁。这种“靶向扩展”思路,让算法能集中精力补短板,收敛速度直接起飞。

4. 环境建模更高效,适配多自由度机器人

要规划路径,先得把环境摸清楚。研究团队用八叉树结构处理点云数据(看图2),既能高效做碰撞检测,又能减少数据存储,完美适配21自由度机器人的复杂状态空间——不管是单臂、双臂操作,还是头部、腰部、移动平台的协同,都能覆盖到。

图2

实测效果有多顶?数据说话!

研究团队在4个典型狭窄场景里做了测试:室内服务、医疗测试、室内温室采摘、工业管道缺陷检测(全在图2里),还对比了OMPL库中31种基于采样的算法,最大规划时间设为5秒,每个场景测50次,结果直接碾压:

规划速度:场景1(室内服务)平均规划时间0.4146秒,比OMPL最优算法快38.45%;场景2(医疗测试)快8.18%,场景3(温室采摘)快9.88%,场景4(工业管道)快14.98%;

成功率:平均88.25%,比OMPL最优的BiTRRT(58.5%)高出29.75%;

探索效率:同样的任务,RewardRRT探索的状态数比RRTConnect少50%以上,甚至在工业管道场景里少了95%~96%,少走弯路就是省时间!

更关键的是,算法还在真实场景中落地了!团队搭建了室内苹果采摘环境,机器人先用摄像头定位苹果,再用RewardRRT规划路径,最后精准控制左臂、腰部和移动平台,成功完成采摘(看图3)——从理论到实践,一步到位。

图3

最后再放一张动态概率vs固定概率的对比图(图4),能清晰看到动态概率在成功率和整体性能上的优势,尤其是在复杂的场景4里,差距一眼就能看出来。

总结&未来展望

RewardRRT的核心思路,就是把强化学习的奖励机制和经典的RRT算法结合,用卡尔曼滤波做动态调整,用非对称扩展提收敛速度——没有复杂的模型训练,却解决了狭窄环境下的大问题。

当然算法也还有提升空间,比如目前的奖励只考虑了距离,没兼顾轨迹平滑度、能量消耗这些;在动态环境、多机器人场景下的适配性也还需要验证。不过研究团队已经规划了后续方向:优化奖励结构、尝试分层设计、拓展到动态场景,相信后续会更厉害!

总的来说,这款算法让多自由度机器人在狭窄环境里的“走位”更丝滑了,不管是室内服务、农业采摘还是工业检测,都有实实在在的应用价值——以后机器人在复杂环境里干活,再也不用“磕磕绊绊”啦~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/11 18:54:34

从此告别拖延!口碑爆棚的AI论文工具 —— 千笔·专业论文写作工具

你是否曾为论文选题发愁,面对空白文档无从下手?是否在反复修改中感到力不从心,却始终达不到理想效果?论文写作不仅考验学术能力,更是一场与时间的较量。而如今,一款专为学生打造的AI论文工具——千笔AI&…

作者头像 李华
网站建设 2026/2/11 3:41:38

万国数据宣布私人配售3亿美元 华泰资本认购

雷递网 乐天 2月2日万国数据控股有限公司(简称:“万国数据控股”)日前宣布私人配售3亿美元B轮可转换优先股予一名中国机构投资者华泰资本投资有限公司。万国数据将动用私人配售所得款项扩充数据中心容量及作一般企业用途。可转换优先股包括以…

作者头像 李华
网站建设 2026/2/11 10:45:36

金融保险行业,SpringCloud如何处理百M大文件的上传下载日志记录?

大文件传输系统解决方案(山东某上市集团项目) 作为山东某上市集团公司的项目负责人,针对集团大文件传输系统建设需求,我制定了以下专业解决方案: 一、系统架构设计 1.1 技术架构 ┌───────────────…

作者头像 李华
网站建设 2026/2/10 13:40:02

医院OA系统集成WordPress后,如何高效处理PDF文献中的图片?

要求:开源,免费,技术支持 博客:WordPress 开发语言:PHP 数据库:MySQL 功能:导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏 平台:Window…

作者头像 李华