YOLOFuse Model Zoo开放：预训练权重一键加载-平芜编程栈

YOLOFuse Model Zoo开放：预训练权重一键加载

在夜间街道的监控画面中，可见光摄像头几乎一片漆黑，而红外图像虽能捕捉到热源轮廓，却难以分辨目标细节——这是传统单模态检测系统长期面临的困境。随着智能安防、自动驾驶和无人机巡检对全天候感知能力的需求日益增长，如何让AI“看得更清”，尤其是在低光、雾霾或遮挡环境下稳定识别行人与车辆，已成为多模态感知领域的核心挑战。

正是在这样的背景下，YOLOFuse Model Zoo应运而生。它不是一个简单的代码仓库，而是一个真正意义上的“开箱即用”多模态检测平台：内置完整依赖环境、集成多种融合策略、支持一键加载预训练权重，并默认搭载LLVIP大规模配对数据集。开发者无需再为PyTorch版本冲突、CUDA配置失败或数据对齐问题耗费数天时间，只需拉取镜像、运行命令，即可在几分钟内完成推理演示甚至启动自定义训练。

这背后的技术整合并非易事。将成熟的YOLO架构扩展至双流RGB-IR输入，不仅要解决模态异构性带来的特征分布差异，还需在精度、速度与参数量之间做出精细权衡。YOLOFuse 的设计思路是——以Ultralytics YOLO为基座，构建模块化双流主干，通过可插拔的融合机制实现灵活适配，最终形成一个既适合科研验证又能快速落地部署的统一框架。

双流融合机制的设计哲学

多模态检测的关键，在于如何有效融合来自不同传感器的信息。YOLOFuse 提供了三种主流融合方式：早期融合、中期融合与决策级融合，每一种都对应着不同的工程取舍。

早期融合最为直接：将红外通道作为第四维拼接到RGB图像上，形成4通道输入（[R, G, B, IR]），送入单一主干网络进行联合特征提取。这种方式实现简单，计算效率高，尤其适用于硬件层面已完成像素级对齐的双光摄像设备。但它的前提是两种模态的空间一致性极高，否则会引入噪声干扰。实践中我们发现，若摄像头存在轻微视差或分辨率不一致，该方法反而会导致mAP下降。

相比之下，中期融合展现出更强的鲁棒性与性价比。两个分支分别通过独立的主干网络提取特征后，在Neck部分（如PAN-FPN）进行跨模态交互。例如，使用注意力机制动态加权红外特征图，增强可见光分支在暗区的目标响应。这种设计保留了各模态的语义层次特性，又实现了信息互补。更重要的是，融合模块仅需少量额外参数（如1x1卷积+sigmoid激活），就能带来显著性能提升。根据实测数据，中期融合模型大小仅为2.61MB，mAP@50达到94.7%，非常适合边缘端部署。

至于决策级融合，则是“稳妥但昂贵”的选择。两个检测头完全独立工作，各自输出边界框与置信度，最终通过加权NMS合并结果。虽然计算开销最大（模型达8.8MB，延迟约42ms），但在极端场景下表现出最强的容错能力，尤其适合模态差异大、标注质量参差的应用场景。

class MidFusionBlock(nn.Module): def __init__(self, channels): super().__init__() self.attn = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(channels * 2, channels, 1), nn.Sigmoid() ) def forward(self, feat_rgb, feat_ir): concat_feat = torch.cat([feat_rgb, feat_ir], dim=1) weight = self.attn(concat_feat) fused = feat_rgb + weight * feat_ir return fused

上述代码展示了一个典型的中期注意力融合模块。它利用全局平均池化捕获通道间相关性，生成空间不变的注意力权重，再作用于红外特征图，实现对可见光特征的自适应补充。这种轻量级设计避免了复杂的交叉注意力计算，同时保证了实时性要求。

基于Ultralytics YOLO的深度集成

YOLOFuse 并未从零造轮子，而是选择深度集成当前最活跃的YOLO生态——Ultralytics YOLO（v8/v9）。这一决策带来了三大优势：一是API简洁，二是训练高效，三是部署路径清晰。

整个架构继承自ultralytics.nn.modules.DetectionModel类，重写了前向传播逻辑以支持双输入流。训练流程完全遵循标准YOLO范式：Anchor-Free头结构、DFL（Distribution Focal Loss）回归损失、CIoU定位优化等先进组件一应俱全。更重要的是，所有模块均可通过YAML配置文件灵活替换，真正实现了“配置即代码”。

# cfg/models/yolofuse_mid.yaml backbone: - [-1, 1, Conv, [64, 3, 2]] # RGB & IR stem conv - [-1, 1, Conv, [128, 3, 2]] ... head: type: DualDetect anchors: ... nc: 1 fuse_stage: "mid"

这个配置文件定义了一个中期融合模型。其中DualDetect是YOLOFuse 扩展的检测头类，专门处理双分支特征输入。用户只需修改fuse_stage字段，即可切换融合阶段，无需改动任何Python代码。这种声明式设计极大降低了实验迭代成本。

此外，框架默认启用自动混合精度（AMP），配合torch.cuda.amp.GradScaler有效减少显存占用，使得即使在单卡RTX 3060上也能训练较大批量。对于需要分布式训练的场景，也完整支持DDP模式，可轻松扩展至多机多卡集群。

值得一提的是，由于底层基于Ultralytics，YOLOFuse 天然兼容TensorRT、OpenVINO、ONNX Runtime等主流推理引擎。这意味着一旦训练完成，模型可通过一行命令导出为ONNX格式，进而部署到Jetson、Hailo或地平线等边缘设备中，真正打通“研发-部署”闭环。

LLVIP 数据集驱动的可复现评估体系

没有高质量的数据支撑，再先进的模型也只是空中楼阁。YOLOFuse 默认采用LLVIP（Low-Light Visible-Infrared Paired）数据集作为基准测试平台。该数据集聚焦真实低光环境，包含近10万张严格时间同步的RGB-IR图像对，覆盖夜间街道、室内弱光、雨雾天气等多种复杂场景，标注对象主要为行人与车辆。

其最大价值在于严格的配对机制：每一帧RGB图像都有对应的红外图像，且命名一致、视野对齐，极大简化了数据预处理流程。更关键的是，标注基于可见光图像手工完成，边界框精确可靠，避免了自监督标注常见的噪声问题。

融合策略	mAP@50	模型大小	推理延迟（ms）
中期特征融合	94.7%	2.61 MB	~28
早期特征融合	95.5%	5.20 MB	~35
决策级融合	95.5%	8.80 MB	~42
DEYOLO（SOTA）	95.2%	11.85 MB	~50

从性能对比表可以看出，尽管早期与决策级融合在mAP上略占优势，但代价是模型体积翻倍甚至三倍。对于大多数嵌入式应用场景而言，中期融合提供的“94.7% mAP + 2.6MB模型 + 28ms延迟”组合更具实用价值。这也解释了为何我们在文档中推荐用户以中期融合为起点开展实验。

使用时需注意几点：
- 图像必须同名存放于images/与imagesIR/目录；
- 标注文件只需一份，系统自动复用于双分支；
- 训练前务必更新data/llvip.yaml中的数据路径指向本地目录。

实战工作流：从推理到训练

进入容器终端后，第一步建议先运行推理脚本查看效果：

cd /root/YOLOFuse python infer_dual.py

该脚本会自动加载预训练权重（best.pt），读取内置测试图像对，并输出可视化检测图。结果保存在/root/YOLOFuse/runs/predict/exp，打开即可直观看到红外信息如何帮助恢复被黑暗掩盖的行人轮廓。

当你准备接入自己的数据时，整个流程也非常清晰：

1. 数据准备

将自定义数据集上传至指定目录，结构如下：

mydata/ ├── images/ ← RGB 图像 ├── imagesIR/ ← 同名红外图像 └── labels/ ← YOLO格式txt标注（基于RGB坐标）

2. 配置更新

创建data/mydata.yaml文件并填写路径与类别信息：

path: /root/YOLOFuse/datasets/mydata train: images val: images test: images names: ['person']

3. 启动训练

执行训练命令：

python train_dual.py --data data/mydata.yaml --cfg cfg/yolofuse_mid.yaml

训练过程中，系统会自动生成loss曲线、mAP变化图以及最佳权重文件（best.pt），全部保存在/root/YOLOFuse/runs/fuse目录下。支持断点续训，意外中断后可直接重新运行命令恢复训练。

常见问题与最佳实践

在实际使用中，新手常遇到几类典型问题：

环境报错：提示No module named 'ultralytics'？不用担心，Docker镜像已预装所有依赖，只需确认是否正确进入容器环境。
数据不对齐：若缺少真实红外图像，临时复制RGB图到imagesIR可用于调试，但切记这只是占位操作，无法实现真正融合增益。
显存不足：添加--half参数启用FP16训练，显存消耗可降低近50%。
Python命令缺失：首次运行时可能出现python: command not found错误，执行ln -sf /usr/bin/python3 /usr/bin/python即可修复软链接。

还有一个容易被忽视的细节：融合策略的选择不应盲目追求高mAP。比如在资源受限的无人机巡检任务中，模型大小和推理速度往往比0.5%的精度提升更重要。因此我们建议始终以中期融合为基线，在此基础上评估业务需求再决定是否升级方案。