news 2026/4/15 5:59:48

TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

你是否曾被朋友圈里的“高清无码”假照片骗到?随着PS、AI绘图工具的普及,图像篡改技术越来越高明,拼接、复制粘贴、修复等操作能做到天衣无缝。但今天要给大家介绍的这篇TPAMI 2025最新论文,用一种全新的思路破解了这个难题——通过捕捉像素间的“不一致”痕迹,让所有伪造区域无所遁形!

论文信息

题目:Pixel-Inconsistency Modeling for Image Manipulation Localization
图像篡改定位的像素不一致建模
作者:Chenqi Kong, Anwei Luo, Shiqi Wang, Haoliang Li, Anderson Rocha, Alex C. Kot

为什么传统方法总失手?

过去,图像篡改检测主要靠两种思路:要么找镜头畸变、噪声模式等人工设计的特征,要么用深度学习模型死磕训练数据里的规律。但这两种方法都有致命缺陷:

  • 传统特征太死板,面对新型篡改技术就歇菜

  • 深度学习模型容易“死记硬背”训练数据,换个数据集就翻车

  • 遇到AIGC生成的高逼真伪造图像,更是直接“睁眼瞎”

论文作者发现了一个关键规律:所有相机拍摄的原始图像,像素之间都存在天然的关联性。这是因为相机的图像信号处理器(ISP)会进行去马赛克操作,让相邻像素形成有规律的依赖关系。而任何篡改操作(拼接、复制移动等)都会破坏这种规律,留下“像素不一致”的痕迹。

就像拼图被强行拆开再拼接,边缘总会有细微的缝隙——这就是论文要抓的“小辫子”!

三大创新点,彻底刷新检测能力

这篇论文之所以能登上顶刊,靠的是三个硬核创新:

1. 史上最全面的测评基准

作者一口气整合了12个数据集,对16种主流检测方法进行了“全方面体检”:

  • 测试它们在未知数据集上的泛化能力

  • 模拟6种图像扰动(比如压缩、模糊)的9个严重级别,考验鲁棒性

  • 甚至拿AIGC生成的超逼真伪造图像当“终极BOSS”

这就像给所有检测方法搞了个“高考+模拟考+附加题”的全套测试,结果发现大部分方法在跨场景测试中成绩暴跌,而新方法却稳如泰山。

2. 双流框架:全局+局部双管齐下

论文设计的核心模型就像一个“精密侦探”,用两个“眼睛”同时观察图像:

整体框架图
  • 全局像素依赖编码器:用掩码自注意力机制,像读文章一样按顺序分析所有像素块的依赖关系。就像侦探排查整个案件的时间线,任何前后矛盾的细节都逃不过它的眼睛。

  • 局部像素依赖编码器:通过差分卷积技术,聚焦局部区域的像素差异。比如检查拼图边缘的细微错位,哪怕是1个像素的偏差都能捕捉到。

两个编码器的特征通过“学习加权模块”智能融合,最后由三个解码器分别预测篡改区域、边界和重建原始图像,相当于多维度交叉验证,确保判断准确。

3. 像素不一致数据增强:用真图造“假证”

最绝的是这个数据增强策略(PIDA)!它完全不用真实的伪造图像,直接对真实图像动手脚:

PIDA流程
  1. 给真实图像加压缩、噪声等“伤痕”

  2. 提取前景掩码,把“受伤”的部分和原图拼接

  3. 自动生成篡改边界标签

这样造出的“伪伪造图像”语义上完全合理,但像素级存在细微矛盾,强迫模型专注学习这种底层痕迹,而不是死记硬背“天空不能出现在地面”这种语义规律。这就像练武功时故意用反常规的招式训练,实战时才能应对各种奇招。

实测效果:秒杀现有方法

作者在11个测试数据集上进行了严格对比,新方法(PIM)的表现只能用“碾压”形容:

  • 在跨数据集测试中,平均F1分数比最先进的TruFor高2.3%,IoU指标更是全面领先

  • 面对10种修复篡改技术,8个数据集拿下第一,平均F1达0.649

  • 对付Dall-E2、Stable Diffusion生成的复杂伪造图像,F1和IoU指标全部登顶

  • 即使图像被恶意压缩、模糊,鲁棒性依然吊打其他方法

看这组可视化结果,红色是真实篡改区域,绿色是模型预测,新方法几乎完美贴合:

(此处可脑补对比图:其他方法边缘模糊,新方法精准勾勒)

尤其在AIGC生成的高逼真伪造图像上,传统方法经常把整个图像标为“可疑”,而新方法能精准揪出被篡改的局部区域,比如凭空添加的物体、修改的背景等。

为什么这项研究很重要?

在假新闻泛滥、AI换脸诈骗频发的今天,靠谱的图像篡改检测技术简直是“数字世界的防伪码”:

  • 新闻媒体可以用它验证素材真实性

  • 司法领域能快速鉴定证据是否被篡改

  • 社交媒体平台可自动拦截恶意伪造内容

  • 甚至能帮我们普通人练就“火眼金睛”

论文作者还特别提到,目前模型在极端低分辨率图像上表现还有提升空间,未来可能结合更多物理层特征(比如传感器噪声)进一步强化检测能力。

如果你也对图像取证、AI安全感兴趣,这篇论文绝对值得深入研读。毕竟在这个“眼见不一定为实”的时代,能看穿像素级谎言的技术,实在太重要了!

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 14:09:04

手机也能用OpenClaw了!百度智能云发布移动端接入方案

2月2日,百度智能云宣布推出移动端OpenClaw部署方案。 通过百度智能云旗下的云端手机服务——红手指Operator,用户现在可以在手机等移动设备上深度体验OpenClaw,正式激活移动设备的“自主能动性”。 如果你已经在PC端部署了OpenClaw&#xff0…

作者头像 李华
网站建设 2026/4/13 17:57:51

数字营销的未来已来:Agentic AI技术全景解析

数字营销的未来已来:Agentic AI 技术全景解析 一、引言 钩子 你是否曾好奇,未来的数字营销会呈现出怎样一幅令人惊叹的景象?想象一下,有这样一种技术,它能够自动洞察消费者的每一个细微需求,精准地推送个…

作者头像 李华
网站建设 2026/4/11 15:28:52

学习笔记——Linux内核与嵌入式开发3

一、内核编译系统详解1.1 Makefile系统1.1.1 内核Makefile结构Linux内核源码目录结构: arch/ - 架构相关代码 drivers/ - 设备驱动 fs/ - 文件系统 include/ - 头文件 init/ - 初始化代码 kernel/ - 核心内核 mm/ - 内存管理 net/ - 网…

作者头像 李华
网站建设 2026/4/12 1:49:49

企业级 AI 数据分析实践指南:Spring AI Alibaba DataAgent 全流程落地

企业级 AI 数据分析实践指南:Spring AI Alibaba DataAgent 全流程落地 定位:技术实践指南 / 企业落地方案 目标读者:架构师、Java/Spring 开发者、数据分析团队 一、DataAgent:企业级 AI 数据分析智能体 传统 Text-to-SQL 工具仅能将自然语言转为 SQL,无法覆盖完整的分析…

作者头像 李华