news 2026/4/15 5:45:04

北理工团队提出一种面向低质量视频目标检测的脑启发注视引导的脑机跨模态深度融合检测方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
北理工团队提出一种面向低质量视频目标检测的脑启发注视引导的脑机跨模态深度融合检测方法

近日,北京理工大学机械与车辆学院毕路拯教授团队以“Brain-Inspired Gaze-Guided Neuro–Video Cross-Modal Deep Fusion for Object Detection in Degraded Videos”为题提出了一种脑启发的注视引导的脑机跨模态深度融合框架,显著提升了低质量视频中的目标检测性能。论文第一作者为其团队硕士研究生柳曼玉。该论文已在《Expert Systems with Applications》(DOI:https://doi.org/10.1016/j.eswa.2026.131181)

论文摘要:对低质量视频进行目标检测,仍然是计算机视觉系统面临的主要挑战,因为传统算法往往难以保持鲁棒性,而人工判读又存在固有的局限性。本文提出了一种受大脑启发的、凝视引导的神经-视频跨模态深度融合框架,该框架利用神经和视觉信号来增强不同视频质量下的目标检测性能。首先,我们设计了一个多尺度时空网络(Multi-Scale Spatiotemporal Network ,MSST-Net),该网络构成了我们框架的基础,并显著提升了基于神经信号的低质量视觉目标检测能力。其次,我们引入了注视引导的跨模态融合模型(NeuroCross-Fusion,NCF-Net),它通过基于眼动追踪的注意力线索来对齐神经信号和视频表征,从而有效弥合了神经模态与视觉模态之间的语义鸿沟。最后,我们开发了一种自适应机制,能够根据视频质量动态调整检测策略,从而降低认知负荷并提高系统鲁棒性。实验证明,这种脑机协作系统的性能显著优于传统的基于视觉的方法,凸显了脑启发的多模态融合在实现智能、鲁棒视觉感知方面的潜力。

研究背景及主要内容:视频目标检测在安防监控和无人机侦察等应用中发挥着关键作用。当前的视频目标检测通常通过全自动的计算机视觉算法或人工判读来解决。

计算机视觉的目标检测具有诸多优势,例如能够快速处理大量数据且自动化程度高,可在短时间内完成视频中目标的识别与分类。然而,当视频质量因运动模糊、大气干扰、光照变化、传感器噪声和压缩伪影等各种因素而下降时,尽管现有技术取得了显著进步,但传统的计算机视觉方法常常无法准确识别目标,导致检测性能降低。

研究表明,人类视觉系统在复杂的环境条件下仍能保持强大的目标识别能力。人类的视觉不仅依赖于直接的图像特征,还依赖于上下文信息、先验知识和联想推理,能够快速准确地识别低质量的目标。然而,人工判读方法也存在显著局限性,例如处理速度较慢、操作时间较长。在复杂的任务场景中,操作员需要同时监控多个目标和任务,这可能导致因认知超负荷而降低效率和准确性。这为开发一种融合人类认知机制的智能检测系统提供了宝贵基础。人机协作旨在通过结合人类的认知能力和机器的计算效率,来克服纯人工和全自动系统的局限性。然而,传统的人机交互方法(如键盘鼠标操作和语音识别)与人类的自然认知和行为模式存在显著差异。因此,协作过程往往不够直观,并可能干扰其他任务的执行。

在此背景下,脑机接口(Brain-Computer Interface,BCI)为目标检测领域带来了新的可能性。BCI可以直接从大脑获取神经信号,而无需依赖复杂的物理操作或语音命令。此外,BCI能够更自然地将人类认知能力整合到机器操作中,且不干扰其他任务,从而实现更高效、更自然的人机融合。尽管脑机接口技术在视频目标检测方面潜力巨大,但仍面临一些挑战,例如脑电图信号(electroencephalograph,EEG)的低信噪比以及对环境干扰的敏感性。这些挑战阻碍了其在实际场景中的广泛应用。

鉴于这些挑战,单靠脑机接口技术可能不足以完全应对现实世界场景中视频目标检测的复杂性。这一局限性促使人们探索脑机融合方法,旨在将脑机接口与其他技术相结合以提升整体性能。尽管在视频目标检测领域的脑机协同融合技术研究仍然有限,但在无人机控制、驾驶员辅助系统、脑控机器人以及跨模态检测等其他领域已取得显著进展,展示了脑机融合的巨大潜力。

在本文中,我们开发了一种脑机协同视频目标检测系统。我们首先构建一个注视引导的神经-视频跨模态深度融合模型NCF-Net,旨在提升整个数据集(包括所有视频质量)的检测性能。为实现这种集成,我们建立了一个独立的脑电图解码模型作为基础;相应地,我们提出了一个多尺度时空脑电图解码框架。基于这个融合模型,我们进一步开发了一个脑机协同检测系统,该系统能够在高质量视频场景下自主运行,同时在实际应用中提高整体性能。

首先,针对脑电信号在低质量视频目标检测中的关键作用,研究设计了MSST-Net。该网络通过自适应多尺度频率卷积模块并行提取EEG信号中与目标认知相关的高频及中低频神经振荡特征,并引入选择性核网络实现跨频段特征的自适应加权融合,并通过门控机制融合多分支信息。为进一步增强时空特征表示,模型结合局部时空特征提取器,沿时间和空间维度分别计算注意力权重,使模型能够聚焦于特征图中的关键区域,为最终输出的脑电特征提供高质量的时空表示。在此基础上,为实现神经信号与视觉信息的有效协同,研究构建了注视引导的神经-视频跨模态融合模型NCF-Net。该模型利用眼动追踪信号来提取以注意力为中心的视觉特征,并通过跨注意力机制实现了脑电图与视频特征之间的语义对齐;引入交叉注意力机制,动态计算EEG特征与图像特征的关联权重,并通过自适应加权生成融合表征。这种设计有效弥合了神经模态与视觉模态之间的语义鸿沟。

图1注视引导的神经-视频跨模态融合模型(NCF-Net)

图2 多尺度时空脑电解码模型

为实现系统在真实场景中的自适应检测,研究搭建了脑机协同视频目标检测系统,基于视频质量动态调整脑机协同检测机制,高质量视频优先采用纯计算机视觉模型,中低质量视频激活多模态融合模型NCF-Net,使得该系统能够在高质量视频场景下自主运行,同时在实际应用中提高整体性能,从而降低认知负荷并提高系统鲁棒性。研究还实现了系统的核心交互功能。在目标确认后,它会根据实时注视坐标自动生成边界框,精确地在视频帧内标记目标位置,并提供直观的视觉反馈。实验结果证实了自适应脑机融合系统在复杂视频环境中的实用性、稳健性和实时操作性,表明其在实际应用中具有巨大潜力。

图3 自适应脑机协同检测系统架构

图4 实验范式及伪在线检测流程

研究结果:首先,针对MSST-Net我们使用离线数据进行性能验证,结果表明通过将自适应多尺度频率卷积与局部时空特征提取相结合,MSST-Net显著提高了脑电图解码的性能,特别是在低质量视频中增强了目标检测能力。同时,神经表示证明了该模型的设计具有神经可解释性。实验结果显示,MSST-Net 的平均分类准确率为 0.850(±0.025),明显优于先进的基准方法。它保持了出色的召回率 0.828(±0.045)和假阳性率 0.148(±0.041),展示了高灵敏度和强特异性的良好平衡。同时消融实验证明了MSST-Net每一部分设计的必要性。

图5 视频目标识别的脑拓扑图可视化结果

图6 MSST-Net与其他模型的性能比较

在伪在线实验范式下,NCF-Net 在检测窗口大小为 2 时达到了最佳性能,其峰值准确率为 0.859(±0.025),在相同条件下显著优于纯脑电图模型的 0.809(±0.062),验证了跨模态融合的有效性。消融实验展示了 NCF-Net 设计各部分的必要性。基于伪在线实验的结果,我们分别针对低质量、中质量、高质量视频训练了专门的融合模型。实验表明,这种策略使模型在所有三种质量条件下均能达到平均准确率 0.879,优于基准模型的 0.853 准确率。

图7 不同的击中策略下NCF-Net与纯脑电模型的性能比较

最后,我们设计了一个自适应的脑机协同检测系统,并搭建了在线验证平台。在线实验结果表明,融合系统相较于纯脑电图模型展现出了全面的优势,各参与者的平均准确率从 0.896 提高到了 0.937。此外,通过引入视频质量评估模块来实施自适应策略,该系统能够根据视频质量动态调整模态权重。这种自适应策略最终实现了 0.932 的综合准确率,有效地降低了认知负荷,同时保持了较高的命中率,显著增强了系统在复杂现实场景中的鲁棒性和实用性。至关重要的是,该系统展示了强大的实时能力,每个窗口的平均推理时间为 32.81 毫秒,证实了其在持续在线运行方面的实际可行性和实用性。

图8 视频目标检测在线验证平台

图9 系统在线运行时推理时间的统计情况

研究贡献及前景:本研究为人机混合检测奠定了理论基础。克服了传统计算机视觉和纯粹基于脑机接口的方法的局限性,为现实世界中的视频对象检测提供了一种可靠、自适应且高效的解决方案;同时为开发更具生物合理性的深度学习模型提供了新思路,将促进神经科学和人工智能的深度融合,为新一代人机协同系统奠定基础。

更多成果进展:为了推进脑机接口和脑控机器迈向真实的应用场景,北京理工大学毕路拯教授团队一直致力于自然场景下的脑机接口、脑机混合智能和脑机协同控制的理论、方法和应用研究。在脑机接口方面,该团队关于考虑注意状态的运动意图分层解码模型曾发表于国际顶级期刊《IEEE Transactions on Neural Systems and Rehabilitation Engineering》,参考《北理工团队在推动运动意图神经解码走向真实应用场景方面取得研究进展,关于单手和双手协同运动的神经解码成果曾发表于生物医学工程领域旗舰期刊《IEEE Transactions on Biomedical Engineering》,参考《如何对单手和双手协同运动方向进行神经表征和解码?北理工研究团队给出了相关方案,所提出的神经活动驱动的深度学习解码模型曾发表发表于国际期刊《IEEE Transactions on Neural Systems and Rehabilitation Engineering》,参考《北理工团队提出一种神经表征驱动的手部运动解码深度学习模型》。关于不同注意力状态下运动意图的鲁棒神经解码研究曾发表于生物医学工程领域旗舰期刊《IEEE Transactions on Biomedical Engineering》,参考《北理工团队在不同注意力状态下肢体运动意图的鲁棒神经解码方面取得重要研究进展,该论文也获得2022世界机器人大赛-BCI脑控机器人大赛一青年论文比赛一等奖(唯一),关于非侵入式神经信号的连续运动解码曾发表于国际顶级期刊《IEEE Transactions on Neural Systems and Rehabilitation Engineering》,参考《北理工团队在基于非侵入式神经信号的连续运动解码方面取得新进展》,所创建的自然场景下声音目标探测的听觉脑机接口曾发表发表于国际顶级期刊《IEEE Transactions on Neural Systems and Rehabilitation Engineering》,参考《北理工团队创建自然场景下声音目标探测的听觉脑机接口。在脑机协同控制方面,该团队所创建的多任务操控的脑机协同控制方法并应用于智能车辆的研究曾发表在被国际顶级期刊《IEEE Transactions on Systems, Man, and Cybernetics: Systems》,参考《北理工团队创建面向多任务操控的脑机协同控制方法并应用于智能车辆》,创建的脑机协同控制框架以及在脑空智能车辆上的应用研究曾发表于国际顶级期刊《IEEE Transactions on Intelligent Transportation Systems》,参考《北理工研究团队在脑机协同控制技术与脑控智能车辆方面取得重要进展》,所提出的基于鲁棒非线性模型预测的脑机协同控制方法以及在脑空移动机器人上的应用研究曾发表于国际顶级期刊《IEEE Transactions on Cybernetics》,参考《北理工研究团队在脑-控移动机器人上取得重要进展。此外,该团队首创的脑控空地协同多无人系统入选2023年世界机器人大赛十大创新成果。在脑机混合智能感知方面,提出了面向低质量视频目标检测的鲁棒脑机接口,发表于《Cyborg and Bionic Systems》,参考《北理工团队研发一种面向低质量视频目标检测的脑机接口技术该论文也获得2024世界机器人大赛-BCI脑控机器人大赛一青年论文比赛特等奖(第一名)。

团队与作者简介:北京理工大学智能人机系统团队隶属于北京理工大学机械与车辆学院机电系统与装备研究所。团队由5名教师和30余名博士后、博士和硕士研究生组成,负责人为毕路拯教授。团队主要研究方向包括脑机接口与脑控智能机器、多机器人协同、类脑触觉与听觉、多模态智能感知等。团队在包括国际权威期刊IEEE TCYB, TBME, TITS, TSMCS, TNSRE和THMS等发表论文120余篇。获授权国家发明专利30多项。获北京市自然科学奖二等奖、教育部自然科学奖二等奖,中国仿真学会自然科学奖二等奖、中国电子学会科技进步二等奖。获得2024和2022年世界机器人大会-BCI脑控机器人大赛-青年论文比赛第一名(唯一)。获第九届中国国际“互联网+”大学生创新创业大赛金奖;首届“京彩大创”北京大学生创新创业总决赛季军和第八届中国国际“互联网+”大学生创新创业大赛全国铜奖;2023年挑战杯全国银奖。

毕路拯教授简介
毕路拯现为北京理工大学机械与车辆学院教授、博士生导师、机电系统与装备研究所所长。担任中国人类工效学学会人机工程专委会副主任委员、中国脑机接口产业联盟数据与基础软件工作组副主席、中国计算机学会智能汽车分会专委会常委委员等。任中科院一区TOP期刊Expert Systems with Applications和Cyborg and Bionic Systems等期刊的AE。

仅用于学术分享,若侵权请留言,即时删侵!

欢迎加入脑机接口AI星球

获取更多脑机接口+AI等领域的知识和资源。

加群交流、商业合作请添加微信:RoseBCI【备注:姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

点击投稿:脑机接口社区学术新闻投稿指南

2.加入社区成为兼职创作者,请联系微信:RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 21:22:03

小红书MySQL内核秒杀能力重磅再升级

“秒杀”是电商平台最典型的高并发促销场景,双十一等大促活动也常以秒杀能力作为数据库技术实力的标志。随着小红书电商业务快速增长,直播带货等爆品场景对极致下单速度的需求更加突出,希望将下单吞吐提升至 1W/s。 基于 MySQL 内核实现的合并…

作者头像 李华
网站建设 2026/4/12 21:26:18

面试官:短信接口被刷,一夜损失5万!如果是你,怎么防?

前两天,粉丝群里的阿强(老倒霉蛋了)半夜给我发私信,说他们公司刚上线的一个 H5 活动页,半夜被 SMS Boom(短信轰炸机) 盯上了。 早上老板醒来一看阿里云账单,好家伙,一晚上…

作者头像 李华
网站建设 2026/4/9 12:35:31

JS截屏内容粘贴到CKEDITOR如何通过PHP自动分类存储?

北京某集团公司项目需求实现记录:企业网站后台管理系统富文本编辑器增强功能开发 一、需求背景与核心目标 作为集团项目负责人,近期承接某政府客户企业网站后台管理系统升级需求,核心要求为: 功能增强:在CKEditor 4…

作者头像 李华
网站建设 2026/4/11 7:26:12

用HTML5实现Vue大文件秒传的DEMO?

北京XX软件公司涉密项目大文件传输解决方案(基于SM4国密算法的多数据库兼容方案) 一、项目背景与核心需求深化 作为服务政府及军工领域的软件企业,我司当前涉密项目需满足以下严苛要求: 多数据库兼容:需无缝适配达梦…

作者头像 李华
网站建设 2026/4/8 21:43:30

UtcDecoderHost.exe文件丢失找不到 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/11 22:12:25

学霸同款2026继续教育AI论文写作软件TOP10:开题报告神器测评

学霸同款2026继续教育AI论文写作软件TOP10:开题报告神器测评 2026年继续教育AI论文写作软件测评:功能与效率的深度解析 随着人工智能技术在学术领域的广泛应用,AI论文写作工具逐渐成为科研人员和继续教育学员的重要辅助工具。然而&#xff0c…

作者头像 李华