一、问题背景:大模型推理太慢,小模型精度不够,怎么破?
2026 年的今天,视觉骨干网络的选择已经变得异常丰富——ViT、Swin Transformer、ConvNeXt V2、EfficientNetV2 等各显神通。然而在实际生产部署中,工程师们始终面临一个核心矛盾:大模型精度高但推理太慢,小模型跑得快但精度不达标。以 ConvNeXt 系列为例,ConvNeXt-Large 在 ImageNet-1K 上的 Top-1 准确率达到84.3%(224×224 分辨率)甚至85.5%(384×384),但参数量高达 198M,FLOPs 达到 34.4G,在边缘设备上部署几乎是不可能的任务。而 ConvNeXt-Tiny 虽然只有 28.6M 参数和 4.47G FLOPs,但准确率仅为 82.1%,与 Large 差距达 2-3 个百分点。
如何在不损失(或少损失)精度的前提下,把大模型压缩到可以在移动端、边缘端流畅运行?知识蒸馏(Knowledge Distillation)正是解决这一问题的核心武器。
根据 Facebook AI Research(FAIR)提出的 ConvNeXt V2 最新进展,结合 PyTorch 官方知识蒸馏指南(2025 年 9 月发布),以及 timm 库中 2025 年最新发布的 DINOv3 蒸馏预训练模型,本文将从原理到实战,手把手带你完成“ConvNeXt-L 教小 ConvNeXt”的完整蒸馏流程,实现 Imag