news 2026/6/25 11:40:11

李德毅和马楠联合发文——无人驾驶具身交互智能 Engineering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
李德毅和马楠联合发文——无人驾驶具身交互智能 Engineering
  1. 文章导读:在无人驾驶领域,车道跟踪、车辆流量监控、变道辅助及车道保持等技术已得到广泛应用。然而,无人驾驶系统面临的核心问题在于:无人车能否准确理解人类行为?人类能否及时理解车辆决策?若人车之间未能实现认知协同,将直接影响无人驾驶的可信性。因此,必须使无人车具备情境理解能力、交互能力、学习能力和可信任性,方能真正为大众所接受。更为关键的是,真实驾驶场景具有高度动态性、碎片化且难以穷尽的特征,无人车如何在这些不断累积的复杂场景中实现持续学习与进化,是无人驾驶迈向真正智能化的核心挑战。
    清华大学李德毅和北京工业大学马楠作为通讯作者在中国工程院院刊《Engineering》期刊上发表“无人驾驶具身交互智能”的研究论文,提出了无人驾驶具身交互智能理论框架——通过跨媒体感知、机器学习、认知计算和生成式人工智能等技术,构建与物理世界统一的智能表达与学习方法。该研究创新性地构建了端到端感知-认知-行为闭环反馈范式,使无人车不仅能交互、会学习、可信任,更能在日常驾驶中遇到的每一个碎片化场景中进行自主终生学习。通过自学习、自成长能力,以有限的驾驶经验逼近无限的智能,从而增强机器的智能化水平,真正实现人机融合,使无人车具备情境理解能力,为大众所接受。
  2. 研究内容:本研究提出了无人驾驶具身交互智能(Embodied Interactive Intelligence Towards Autonomous Driving, EIIAD):无人车利用跨模态感知系统识别和追踪物理空间的关键要素,通过主动与环境交互获取反馈,持续建立并优化物理空间与认知空间的映射关系,形成感知-认知-行为闭环范式,最终实现类人决策并控制车辆行为。根据交互对象差异,无人驾驶具身交互智能包括车与人交互、车与车交互和车与环境交互三大类别(图1a)。针对不同交互主体的行为特征差异,本研究提出了差异化的交互认知模型:针对车与人交互,提出基于多视时空特征的超图神经网络(Hypergraph Neural Network based on Multi-view Spatial-temporal Features, HGNN-MSTF),通过构建动态时空超图捕捉人体关节的高阶语义关联,融合多视角跨模态感知信息,结合场景上下文通过联合概率分布建模行人动作与位置关系,实现对行人意图的精准理解(图1b);针对车与车交互,提出基于联合轨迹预测的世界模型深度强化学习网络(Deep Reinforcement Learning - Joint Trajectory Prediction World Model, DRL-JTPWM),通过估计无人车与周围社会车辆行驶轨迹的联合概率分布,推理多个潜在交互场景,利用预测的未来场景评估驾驶策略优劣,在狭路会车、超车并道、无保护路口左转等复杂交互工况中展现出优异性能(图1c)。在此基础上,本研究将上述车与人的交互认知及环境约束集成于统一的人车在环深度强化学习框架,从而构建了端到端统一约束的车与环境交互模型(Unified Constrained Vehicle–Environment Interaction, UniCVE),采用鸟瞰图空间统一编码多视角跨模态感知信息,通过超图神经网络学习环境要素间的高阶关系,并创新性地将大语言模型的驾驶知识蒸馏到实时模型中,统一表达了无人车与环境中各要素相互关联的复杂交互行为。

图1 无人驾驶的具身交互智能。(a)无人车与环境交互:驾驶环境复杂性主要源于动态变化的路况,罕见的危险场景以及多样化的地形和气候条件等。(b) 无人车与人的肢体语言交互方法:基于时空超图的跨模态动作识别。 © 车体语言交互:包括狭路会车,超车并道和无保护十字路口多车交互等工况。
3. 研究总结:本研究构建的端到端感知-认知-行为闭环反馈框架,通过将异构交互主体的认知理解转化为统一的价值函数与软约束表达,建立了人-车-路协同交互的统一认知模型。UniCVE模型已在东风无人巴士部署验证,于雄安新区累计行驶22000公里,完成45000项运营导航任务,特别是在视觉遮挡交叉路口等高风险场景中展现出基于经验记忆的自适应决策能力。该研究所提出的具身交互智能范式,使无人车具备了在碎片化场景中的自主终生学习机制,构建了从有限样本到无限智能的演化路径,为无人驾驶系统实现真正"懂人情世故"的社会化融入提供了理论支撑与技术路径,标志着无人驾驶技术从功能实现向认知智能的跨越式发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 10:53:00

从“证书获取“到“能力建设“:六西格玛培训的价值实现路径

在制造业质量管理的实践中,一个有趣的现象值得深思:两家同行业的包装企业同时派员工参加六西格玛绿带培训,三个月后,A公司的学员成功主导了产线损耗率降低42%的改进项目,而B公司的学员却连基础数据收集工作都未能完成。…

作者头像 李华
网站建设 2026/6/25 7:39:56

基于阶梯式碳机制与电制氢的综合能源系统优化调度:热电联产与氢能效益研究

MATLAB 代码:考虑阶梯式碳机制与电制氢的综合能源系统热电优化 关键词:碳 电制氢 阶梯式碳 综合能源系统 热电优化 参考文档:《考虑阶梯式碳机制与电制氢的综合能源系统热电优化》基本复现 仿真平台:MATLABCPLEX 主要内容:代码主要做的是一个考虑阶梯式碳机制的电热综合能源…

作者头像 李华
网站建设 2026/6/23 21:18:12

可持续测试实践探索

可持续测试的时代背景与意义 在数字化浪潮席卷全球的今天,软件已成为社会运转的核心驱动力,但随之而来的能源消耗、电子废弃物和低效流程也对环境与社会构成了挑战。根据行业数据,全球IT部门的碳排放占总量约2-4%,而低质量软件导…

作者头像 李华
网站建设 2026/6/10 10:48:31

「安卓开发辅助工具按键精灵」xml全分辨率插件jsd插件脚本教程

在处理界面上文字提取的问题,我通常会选择使用jsd插件,感觉用起来挺方便,以往在使用jsd插件的时候就是按照命令提供例子的方法直接使用,这次想自己分析一下每个命令。 jsd插件主要是对节点的处理,我也只分析和节点相关…

作者头像 李华
网站建设 2026/6/25 1:42:55

代码复现:LEARNING FAST AND SLOW FORONLINE TIME SERIES FORECASTING

基于上一篇文章文献阅读:LEARNING FAST AND SLOW FORONLINE TIME SERIES FORECASTING-CSDN博客过后,这里去根据论文中的代码仓库进行了一个实验。尊重原创代码:GitHub - DMIRLAB-Group/LSTD 问题 这里发现给的配置文件不是很全面&#xff0c…

作者头像 李华
网站建设 2026/6/24 6:19:51

密码管理器:单主密码管所有,是便捷福音还是风险陷阱?

在数字时代,每个人的生活都被密密麻麻的账号密码包裹:社交软件、购物平台、办公系统、金融账户……为了安全,我们被反复提醒“不要重复使用密码”“密码需包含大小写字母、数字和特殊符号”;可为了记忆,不少人又不得不…

作者头像 李华