引言:当YOLO遭遇低分辨率之痛
在计算机视觉的诸多应用场景中,低分辨率图像和小目标检测一直是难以逾越的技术鸿沟。想象一下这样的场景:监控摄像头拍摄的远距离行人、无人机航拍的密集车辆、医疗影像中的微小病灶、工业质检中毫米级缺陷……这些目标在画面中往往只占据几十甚至几个像素,传统检测模型面对它们时,表现堪称惨不忍睹。
问题的根源,恰恰出在几乎所有卷积神经网络(CNN)的基础设计上。为了逐步扩大感受野、提取高层语义特征,CNN架构普遍采用步长卷积和池化层对特征图进行下采样。然而,每一次下采样都是信息的一次“瘦身”——空间尺寸减半,大量像素被直接丢弃或平均。对于大目标而言,这种损失尚可容忍,因为其特征响应区域足够大、冗余足够多。但对于低分辨率图像和小目标,每一次下采样都是一次“生死考验”:很多目标在特征提取过程中直接“消失”了,连检测的机会都没有。
根据相关测试,当使用YOLOv5检测电路板微小焊点时,1080p输入下mAP可达0.89,但输入分辨率降至480p时,性能断崖式下跌到0.63。这种“性能悬崖”效应,让低分辨率场景下的目标检测成为工业落地的痛点。据Yann V. Bellec等人在2026年4月发布的DroneScan-YOLO论文中指出,标准YOLO检测器的最小检测步长为8像素,使得小于32像素的目标几乎无法被检测到。
有没有一种方法,能在下采样的同时不丢失任何像素信息?答案是肯定的——SPD-Conv,空间深度转换卷积,正是为解决这一痛点而生。