news 2026/7/3 21:35:14

即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

论文题目:Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

中文题目:用于像素级表面缺陷检测的小波与原型增强基于查询的 Transformer
应用任务:表面缺陷检测 (Surface Defect Detection)、工业异常检测、语义分割

论文原文 (Paper):https://openaccess.thecvf.com/content/CVPR2025/html/Yan_Wavelet_and_Prototype_Augmented_Query-based_Transformer_for_Pixel-level_Surface_Defect_CVPR_2025_paper.html
代码 (code):https://github.com/iefengyan/WPFormer

摘要
本文提取自CVPR 2024顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。针对工业场景中微弱缺陷(Weak Defects)难以识别以及杂乱背景(Cluttered Backgrounds)干扰严重的痛点,复现了其核心组件——WPFormer中的WCAPCA模块。该架构创新性地将**小波变换(Wavelet Transform)引入 Transformer 的注意力机制中,利用频域信息分离噪声与边缘,同时利用原型(Prototype)**引导查询,实现了像素级的精准缺陷定位。


目录

    • 第一部分:模块原理与实战分析
      • 1. 论文背景与解决的痛点
      • 2. 核心模块原理揭秘
      • 3. 架构图解
      • 4. 适用场景与魔改建议
    • 第二部分:核心完整代码
    • 第三部分:结果验证与总结

第一部分:模块原理与实战分析

1. 论文背景与解决的痛点

在工业视觉检测中,我们经常面临两个极端难题:

  • 隐形杀手(弱缺陷):很多划痕、裂纹对比度极低,和背景几乎融为一体,普通的 CNN 或 Transformer 根本“看”不见。
  • 由于背景太花(杂乱背景):工业表面往往有复杂的纹理(如织物、金属拉丝),这些纹理在特征提取时会被误判为缺陷,导致大量虚警(False Positive)。

痛点总结:现有的 Query-based 方法(如 Mask2Former)虽然强,但缺乏对频率信息类别语义中心的显式建模,导致在困难样本上表现不佳。

2. 核心模块原理揭秘

WPFormer 提出了D2T Decoder (Dual-domain Two-stage Decoder),其中包含两个核心注意力模块。我已将其封装为即插即用的 PyTorch 类:

  • WCA (Wavelet-enhanced Cross-Attention) - 小波增强交叉注意力

  • 核心逻辑:利用离散小波变换 (DWT)将特征图分解为低频(LL)和

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 11:44:08

Anything XL vs 其他SDXL模型:二次元生成效果对比

Anything XL vs 其他SDXL模型:二次元生成效果对比 大家好,我是专注于AI绘画技术探索的彤姐。在SDXL模型生态中,选择一款合适的二次元生成模型常常让人眼花缭乱。今天,我们就来深入对比一下近期备受关注的万象熔炉 | Anything XL与…

作者头像 李华
网站建设 2026/6/29 19:55:05

保姆级教程:用ollama快速搭建QwQ-32B文本生成服务

保姆级教程:用ollama快速搭建QwQ-32B文本生成服务 你是不是也想体验一下最近很火的推理大模型QwQ-32B?但一看到复杂的部署流程就头疼?别担心,今天我就带你用最简单的方法,在10分钟内搭建一个属于自己的QwQ-32B文本生成…

作者头像 李华
网站建设 2026/6/26 0:01:07

实战分享:Qwen3-ForcedAligner-0.6B在语音处理中的惊艳表现

实战分享:Qwen3-ForcedAligner-0.6B在语音处理中的惊艳表现 1. 引言:从“听”到“看”的精准对齐 你有没有想过,一段语音里的每个字、每个词,具体是在哪个时间点说出来的?这个看似简单的需求,在语音处理领…

作者头像 李华
网站建设 2026/6/26 11:44:12

StructBERT中文版:语义相似度计算的GPU加速实践

StructBERT中文版:语义相似度计算的GPU加速实践 1. 快速上手:从零部署到第一个相似度判断 如果你正在寻找一个能快速判断中文句子相似度的工具,StructBERT中文版可能是你需要的解决方案。这个工具基于阿里达摩院开源的StructBERT-Large模型…

作者头像 李华
网站建设 2026/7/3 18:27:01

DeepSeek-OCR-2保姆级教程:本地部署+文档解析全流程

DeepSeek-OCR-2保姆级教程:本地部署文档解析全流程 你是不是也经历过这样的尴尬?手头有一叠纸质合同、扫描版标书、PDF版技术手册,想快速提取内容做比对或归档,却卡在第一步:复制粘贴出来的全是乱码,表格错…

作者头像 李华