news 2026/4/12 21:20:32

首个零手工损失函数?FreeFusion:基于跨模态重建的红外可见光融合,引领多模态大模型融合新SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
首个零手工损失函数?FreeFusion:基于跨模态重建的红外可见光融合,引领多模态大模型融合新SOTA

FreeFusion 提出了一种无手工损失函数的红外与可见光图像融合新框架。该方法摒弃了传统的 L1、SSIM 等损失,首创“跨模态重建”自监督机制,通过解耦特征来重建原图,自适应保留全模态信息并隐式对齐域分布。此外,引入动态交互模块量化融合与语义特征关联,解决了高层任务语义失配问题。实验证明该方法在多项指标上超越现有 SOTA。


创新点

  • 首次在红外-可见光图像融合任务中完全摒弃手工设计的融合损失(如 L1、SSIM、GAN 等),通过“跨模态重建”自监督机制迫使网络把融合特征解耦为另一模态特征并重建原图,从而自适应地保留两种模态的全部关键信息,同时隐式实现两种模态在 latent space 的域对齐。
  • 提出“融合-语义”双任务动态交互模块,利用可学习的相关矩阵量化像素级融合特征与对象级语义特征之间的逐像素关联强度;强相关区域被增强、弱相关区域被抑制,从而缓解融合任务与分割/检测等高层任务之间的语义失配,实现双向互引导。

方法

本文提出一种完全摆脱手工融合损失的跨重建学习框架:先用双支编码器分别提取红外与可见光特征,经动态交互融合模块建立融合特征与高层语义特征的相关矩阵,按相关性强弱对融合特征进行增强或抑制以解决语义失配;随后通过特征解耦模块将融合特征拆分为“伪红外”和“伪可见”两支,再送入共享参数的交叉重建解码器,完成红外→可见、可见→红外的双向图像重建,使网络在无 ground-truth 条件下仍能自动保留两种模态的全部关键信息并隐式对齐域分布;整个系统与分割或检测任务联合训练,推理时仅保留单路前向即可直接输出融合图像。

传统手工损失式融合与本文无损失跨重建融合框架对比示意图

本图以左右对照方式直观揭示了 FreeFusion 与现有 IVIF 方法的本质差异:左侧传统流程先分别用红外和可见编码器提取特征,再凭借人工设计的像素强度损失(L1/L2)与结构损失(SSIM/SF)等约束融合模块,希望 fused 图像同时保留热辐射与纹理信息,但由于两模态域差异大且缺乏真值,这些手工损失难以覆盖全部关键特征,导致融合结果在面向分割等高层任务时出现语义失配;右侧的 FreeFusion 则完全舍弃任何手工融合损失,转而通过“自重建 SR 与交叉重建 CR”自监督机制,把融合特征解耦后去重建另一模态图像,迫使网络在 latent space 实现红外-可见光的域对齐,并引入动态交互融合 DIF,用相关矩阵衡量融合特征与目标语义特征的逐像素关联,自适应增强高相关区域、抑制弱相关区域,从而在无真值条件下让融合图像自然兼容高层语义。中文标题可概括为:“传统手工损失式融合与本文无损失跨重建融合框架对比示意图

手工融合损失使用对比表及 Potsdam 数据集指标优势验证

本图左侧以勾选表格形式罗列了七类主流方法在六种常见手工融合损失(L2、SSIM、SF、梯度、纹理、内容等)上的使用差异,直观显示现有算法依赖各式各样的手工损失组合,而 FreeFusion 全部留空,首次实现“零手工损失”;右侧对应给出在 Potsdam 数据集上的客观指标对比,FreeFusion 在 EN、SD、SF、AG、SCD、VIF 六项指标上全面领先次优方法,相对提升幅度分别为 0.8%、2.78%、2.27%、4.01%、0.98%、2.35%,从而用量化结果印证了“去掉手工损失反而获得更佳融合质量”的核心观点。

FreeFusion 跨重建学习与动态交互融合总体框架图

本图以端到端流程图方式完整展示了 FreeFusion 的网络骨架与数据流向:左侧红外与可见光图像分别送入三层编码器提取多尺度特征,随后在各层动态交互融合模块 DIF 内先计算融合-语义相关矩阵实现语义兼容,再经特征解耦模块 FDM 把融合特征拆成“伪红外”和“伪可见”两支,连同原模态特征一起送入共享参数的交叉重建解码器,完成自重建 SR 与交叉重建 CR 双重监督,迫使网络在无手工融合损失条件下仍能保留两种模态的全部关键信息并隐式对齐域分布;训练阶段同时加入分割头进行多任务优化,推理阶段则直接以融合特征单路前向生成最终融合图像,实现训练-推理一体化。

实验

本表在 Potsdam 数据集上把 FreeFusion 与七篇代表性方法一次性摆到一起“打擂台”,结果六项核心指标全线飘红:EN、SD、SF、AG、SCD、VIF 分别达到 6.944、37.616、16.946、6.370、1.800、1.752,相比次优的 CDDFuse 平均再往上拔高 2% 左右,其中 AG 和 SCD 领先幅度最大,接近 4%,直观印证“零手工损失”策略不仅没让信息漏掉,反而把纹理、边缘、对比度、结构差异这些关键细节全部推到极致,坐实了 FreeFusion 在该数据集上的绝对优势。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 11:47:49

<span class=“js_title_inner“>教授专栏196| 吴肖肖: 发现光子第二类狄拉克点在倒空间一般位置的生成方案</span>

近日,香港科技大学(广州)功能枢纽先进材料学域吴肖肖助理教授课题组提出了一种在倒空间中任意位置生成第二类狄拉克点(Type-II Dirac Point)的方案,并进行了实验观测和验证。相关研究成果发表于爱思唯尔旗下…

作者头像 李华
网站建设 2026/4/7 6:24:29

DeepSeek-R1与实在Agent:企业AI落地的“大脑+躯体“协同新范式

文章强调企业不应仅关注大模型进步,更需构建匹配的执行层。DeepSeek-R1作为"认知大脑",需与实在Agent"执行躯体"协同,通过API实现从规划到执行的完整闭环。这种"大脑躯体"系统能实现企业80%以上重复工作自动化…

作者头像 李华
网站建设 2026/4/7 11:27:19

基于空间视频重构的仓储三维透视化管理与前向布控一体化技术方案

基于空间视频重构的仓储三维透视化管理与前向布控一体化技术方案 摘要 本技术方案面向高安全等级仓储场景,提出一套基于空间视频重构的仓储三维透视化管理与前向布控/空间围堵一体化系统。方案以“像素即坐标、视频即空间”为技术核心,通过多视角视频标…

作者头像 李华
网站建设 2026/4/8 13:16:46

从零开始参与开源:手把手教你提交第一个 PR

文章目录 前言一、 理解项目规范:许可证与核心文件二、 筛选任务:利用标签定位入门级 Issue三、 构建协作环境:Fork、Clone 与上游同步四、 规范化开发:分支策略与本地检查五、 提交代码:遵循 Conventional Commits 规…

作者头像 李华
网站建设 2026/4/12 12:45:29

RapidRAW(RAW图像编辑器)

链接:https://pan.quark.cn/s/f079b66b19f2 RapidRAW官方最新版是一款轻量级、高性能且基于GPU加速的RAW图像编辑器,不仅能够体积相对小巧,而且还针对RAW格式进行了专业的优化,此外简洁的界面也让用户可以快速上手。本次更新也是…

作者头像 李华
网站建设 2026/4/11 20:39:34

低代码爬虫利器结合Python Selenium,自动采集商品数据

说实话,现在跨境电商竞争之激烈,获客之难,早已不是搭个台子就能唱戏的阶段,需要各种竞品数据、用户评价数据监测分析,及时掌握哪些产品卖的好,卖的好的产品标题怎么写、用户情感反馈等等,相当的…

作者头像 李华