FreeFusion 提出了一种无手工损失函数的红外与可见光图像融合新框架。该方法摒弃了传统的 L1、SSIM 等损失,首创“跨模态重建”自监督机制,通过解耦特征来重建原图,自适应保留全模态信息并隐式对齐域分布。此外,引入动态交互模块量化融合与语义特征关联,解决了高层任务语义失配问题。实验证明该方法在多项指标上超越现有 SOTA。
创新点
- 首次在红外-可见光图像融合任务中完全摒弃手工设计的融合损失(如 L1、SSIM、GAN 等),通过“跨模态重建”自监督机制迫使网络把融合特征解耦为另一模态特征并重建原图,从而自适应地保留两种模态的全部关键信息,同时隐式实现两种模态在 latent space 的域对齐。
- 提出“融合-语义”双任务动态交互模块,利用可学习的相关矩阵量化像素级融合特征与对象级语义特征之间的逐像素关联强度;强相关区域被增强、弱相关区域被抑制,从而缓解融合任务与分割/检测等高层任务之间的语义失配,实现双向互引导。
方法
本文提出一种完全摆脱手工融合损失的跨重建学习框架:先用双支编码器分别提取红外与可见光特征,经动态交互融合模块建立融合特征与高层语义特征的相关矩阵,按相关性强弱对融合特征进行增强或抑制以解决语义失配;随后通过特征解耦模块将融合特征拆分为“伪红外”和“伪可见”两支,再送入共享参数的交叉重建解码器,完成红外→可见、可见→红外的双向图像重建,使网络在无 ground-truth 条件下仍能自动保留两种模态的全部关键信息并隐式对齐域分布;整个系统与分割或检测任务联合训练,推理时仅保留单路前向即可直接输出融合图像。
传统手工损失式融合与本文无损失跨重建融合框架对比示意图
本图以左右对照方式直观揭示了 FreeFusion 与现有 IVIF 方法的本质差异:左侧传统流程先分别用红外和可见编码器提取特征,再凭借人工设计的像素强度损失(L1/L2)与结构损失(SSIM/SF)等约束融合模块,希望 fused 图像同时保留热辐射与纹理信息,但由于两模态域差异大且缺乏真值,这些手工损失难以覆盖全部关键特征,导致融合结果在面向分割等高层任务时出现语义失配;右侧的 FreeFusion 则完全舍弃任何手工融合损失,转而通过“自重建 SR 与交叉重建 CR”自监督机制,把融合特征解耦后去重建另一模态图像,迫使网络在 latent space 实现红外-可见光的域对齐,并引入动态交互融合 DIF,用相关矩阵衡量融合特征与目标语义特征的逐像素关联,自适应增强高相关区域、抑制弱相关区域,从而在无真值条件下让融合图像自然兼容高层语义。中文标题可概括为:“传统手工损失式融合与本文无损失跨重建融合框架对比示意图
手工融合损失使用对比表及 Potsdam 数据集指标优势验证
本图左侧以勾选表格形式罗列了七类主流方法在六种常见手工融合损失(L2、SSIM、SF、梯度、纹理、内容等)上的使用差异,直观显示现有算法依赖各式各样的手工损失组合,而 FreeFusion 全部留空,首次实现“零手工损失”;右侧对应给出在 Potsdam 数据集上的客观指标对比,FreeFusion 在 EN、SD、SF、AG、SCD、VIF 六项指标上全面领先次优方法,相对提升幅度分别为 0.8%、2.78%、2.27%、4.01%、0.98%、2.35%,从而用量化结果印证了“去掉手工损失反而获得更佳融合质量”的核心观点。
FreeFusion 跨重建学习与动态交互融合总体框架图
本图以端到端流程图方式完整展示了 FreeFusion 的网络骨架与数据流向:左侧红外与可见光图像分别送入三层编码器提取多尺度特征,随后在各层动态交互融合模块 DIF 内先计算融合-语义相关矩阵实现语义兼容,再经特征解耦模块 FDM 把融合特征拆成“伪红外”和“伪可见”两支,连同原模态特征一起送入共享参数的交叉重建解码器,完成自重建 SR 与交叉重建 CR 双重监督,迫使网络在无手工融合损失条件下仍能保留两种模态的全部关键信息并隐式对齐域分布;训练阶段同时加入分割头进行多任务优化,推理阶段则直接以融合特征单路前向生成最终融合图像,实现训练-推理一体化。
实验
本表在 Potsdam 数据集上把 FreeFusion 与七篇代表性方法一次性摆到一起“打擂台”,结果六项核心指标全线飘红:EN、SD、SF、AG、SCD、VIF 分别达到 6.944、37.616、16.946、6.370、1.800、1.752,相比次优的 CDDFuse 平均再往上拔高 2% 左右,其中 AG 和 SCD 领先幅度最大,接近 4%,直观印证“零手工损失”策略不仅没让信息漏掉,反而把纹理、边缘、对比度、结构差异这些关键细节全部推到极致,坐实了 FreeFusion 在该数据集上的绝对优势。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓