news 2026/7/1 21:39:38

视觉感知十年演进

张小明

前端开发工程师

1.2k 24

文章封面图 — 视觉感知十年演进

视觉感知（Visual Perception）的十年（2015–2025），是从“识别照片里的像素”向“重建实时三维物理世界”的跨越。

视觉感知是自动驾驶的“眼睛”。这十年间，视觉算法完成了从 2D 到 3D、从局部到全局、从“特征识别”到“几何占位”的彻底重构。

一、演进三大阶段：从“画框”到“造世界”

1. 2D 卷积与目标检测阶段 (2015–2018) —— “图像识别”

主流算法：CNN（卷积神经网络），如 YOLO 系列、Faster R-CNN。
特征：算法在单帧 2D 图像上运行，主要任务是给车辆、行人画矩形框（Bounding Box）。
局限性：*深度缺失：2D 框很难准确判断物体的真实距离和 3D 形态。
后融合难题：多个摄像头的感知结果在后处理阶段进行硬拼接，经常出现物体在画面交界处“重影”或“断开”的情况。

2. BEV 与 Transformer 时代 (2019–2022) —— “俯视图统一”

里程碑：特斯拉在 2021 年 AI Day 普及了BEV（鸟瞰图）架构。
技术突破：
空间投影：通过 Transformer 架构将多个摄像头的 2D 图像特征直接投影到统一的 3D 俯视图空间（BEV）。
时序融合：算法开始引入“时间”维度，能够通过多帧画面计算物体的速度、加速度，并解决物体被临时遮挡后的记忆问题。
意义：视觉感知从此不再是单纯的图像分类，而是在构建一张实时的、围绕车辆的动态 3D 小地图。

3. 占用网络与生成式 AI 时代 (2023–2025) —— “空间占位”

主流技术：Occupancy Network（占用网络 / 占据栅格）、VLM（视觉语言模型）。
2025 现状：*通用障碍物识别：2025 年的算法（如华为 ADS 3.0、小米 SU7 的感知架构）不再纠结“前方是什么”，而是判断“前方坐标的空间是否被占用”。这解决了识别不出侧翻车辆、散落纸箱、施工围栏等异形物体的问题。
语义理解：视觉系统能“读懂”路牌文字、施工牌信息，甚至识别交警的手势。

二、核心维度十年对比表 (2015 vs 2025)

维度	2015 (感知 1.0)	2025 (感知 3.0)	核心演进点
基础模型	纯 CNN (ResNet 等)	Transformer / VLM	实现了全局信息的注意力关联
感知空间	2D 图像平面	4D 时空占用空间 (Occupancy)	实现了对物理世界的几何级重建
目标范围	预定义的白名单物体	通用障碍物 (General Obstacles)	彻底解决了“长尾场景”识别难题
感知精度	像素级分类	体素级 (Voxel) 占据预测	极大地提升了异形物体的避障能力
系统延时	以上	(硬件加速推理)	实时性足以支持高速场景紧急避障

三、 2025 年的技术巅峰：通感一体与具身视觉

在 2025 年，视觉感知已经进化为一种**“全息物理引擎”**：

神经场景重建 (Neural Scene Reconstruction)：
2025 年的视觉系统结合了NeRF（神经辐射场）或高斯泼溅 (Gaussian Splatting)技术。车辆在行驶时不仅在看，还在实时对周围环境进行三维建模。这些回传的数据可以自动转化为数字孪生，供算法进行离线训练。
eBPF 内核级感知监控：
由于感知模型变得极其庞大（数十亿参数），2025 年的架构引入了eBPF 监控。它在内核层实时跟踪“摄像头曝光神经网络推理物体坐标输出”的全链路时延。如果检测到显存由于复杂路口计算量激增而导致丢帧，eBPF 会即刻触发降级策略，保障安全核心感知不中断。
弱势群体（VRU）意图感知：
视觉感知现在能识别行人的骨架姿态。通过分析路边行人的重心偏移和视线方向，2025 年的系统能提前预判行人是否有横穿马路的冲动。

四、总结：从“看见”到“认知”

过去十年的演进，是将视觉感知从一种**“二维分类器”打造成了机器人的“生物视觉本能”**。

2015 年：视觉在告诉计算机“这张图里有个色块像一辆车”。
2025 年：视觉在告诉车辆“你面前 5 米处有一个占据空间、正以速度斜向切入的刚性障碍物”。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/29 12:52:19

什么是护网行动？

随着企业上云加速，护网行动的战场已延伸至云原生环境。多云架构的安全割裂、容器逃逸风险、Serverless 无服务器攻击等新挑战，要求防御体系从 “边界防护” 转向 “云原生全链路防护”。本文拆解云原生场景的核心风险与攻防技巧。一、云原生环境三大核…

作者头像

李华

网站建设 2026/6/26 1:38:53

合规性管理的现代化实践：IACheck的AI审核如何系统提升生产型检测报告的合规水平

在生产型检测领域，检测报告不仅是产品质量的技术证明，更是企业履行法规责任、满足客户要求、通过行业认证的关键文件。随着国内外法规标准日益复杂、更新速度加快以及监管要求趋严，确保每一份检测报告的完全合规性已成为企业质量管理的核心挑…

作者头像

李华

网站建设 2026/6/30 14:11:43

基于知识图谱的汽车百科问答系统

目录一、研究目的二、研究意义三、国外研究现状分析四、国内研究现状分析五、研究内容 1. 需求分析 2. 可行性分析 3. 功能分析六、数据库设计七、建表MySQL代码一、研究目的本研究的核心目的在于设计并实现一个基于知识图谱技术、具备深度语义理解与推理能…

作者头像

李华

网站建设 2026/6/29 22:13:13

基于springboot的大学生评价反馈系统设计开发实现

背景与意义教育信息化需求增长随着高等教育普及化，高校师生规模扩大，传统纸质或线下反馈方式效率低、数据难以统计。教育信息化政策推动下，数字化评价系统成为提升教学管理效率的刚需工具。教学质量提升需求学生评教是教学质量监控的…

作者头像

李华

网站建设 2026/6/26 10:55:06

MySQL 无法“跳过”中间行，必须物理扫描所有前置行的庖丁解牛

“MySQL 无法‘跳过’中间行，必须物理扫描所有前置行” 是深度分页（LIMIT offset, size）性能灾难的根本原因。这并非 MySQL 的设计缺陷，而是由其存储引擎架构与 SQL 语义决定的必然结果。一、B 树结构：为什么不能“跳…

作者头像

李华

网站建设 2026/6/29 7:13:24

用恋爱脑解释AI：原来算法追人和你追crush一模一样！

当你的心跳加速时，AI的神经网络也在“怦然心动” 开篇：那个让你失眠的crush 上周，朋友小李凌晨三点给我发消息：“她给我朋友圈点赞了！但没回我微信…AI能分析出她到底喜不喜欢我吗？” 我看着他发来的密密麻…

作者头像

李华