从频域视角重构空洞卷机-平芜编程栈

CVPR FADC：从频域视角重构空洞卷积！

论文原文：https://arxiv.org/abs/2403.05369
代码：https://github.com/ying-fu/FADC
即插即用代码仓库：https://github.com/AITricks/AITricks
《Frequency-Adaptive Dilated Convolution》，专门解决语义分割中空洞卷积（Dilated Conv）两大痛点：网格伪影和高频丢失。从“频域”入手，效果拔群！
1️⃣ 核心痛点：空洞卷积的“硬伤”
空洞卷积虽然能扩大感受野，但因为采样点不连续，就像用筛子看世界：
网格效应：特征图会出现棋盘格一样的黑洞，导致信息断层。
高频丢失：因为采样太稀疏，物体边缘、纹理这些“高频细节”根本抓不住，分割出来边缘毛毛糙糙。
2️⃣ FADC：频率自适应，按需分配
为了解决这个问题，作者提出了 FADC：
原理：不像传统方法那样全图用一样的膨胀率，而是看人下菜碟。
机制：在边缘/纹理（高频区域），自动缩小膨胀率，密集采样保细节；在平滑背景（低频区域），自动增大膨胀率，稀疏采样抓上下文。
3️⃣ AdaKern：卷积核也能“分频”
普通的卷积核是固定的，容易“偏科”（通常偏向低频）。AdaKern 把它拆解了：
低频分量：负责平滑去噪。
高频分量：负责锐化边缘。
动态重组：根据输入特征，自动调整这两个分量的比例。想抓纹理就多加高频，想去噪就多加低频。
4️⃣ FreqSelect：特征去噪“滤网”
空洞卷积容易产生混叠噪声。FreqSelect 就像一个智能滤镜，它能识别出哪些高频信号是有用的边缘，哪些是讨厌的噪声，然后精准抑制噪声，让特征图更纯净。
5️⃣ 实验结果：涨点实锤
这套“频域组合拳”效果相当能打：
定量指标：在 ADE20K 数据集上，给 DeepLabV3+ 装上 FADC 后，mIoU 直接提升了 1.2% - 1.8%！这在分割领域可是巨大的提升。
视觉效果：看对比图，不仅“网格效应”完全消失了，而且细小物体的边缘切得非常锐利，不再断断续续。
总结：这篇论文的 FADC、AdaKern 都是非常优秀的即插即用模块，特别适合替换 DeepLab、ResNet 里的空洞卷积层，做分割、去噪的同学赶紧试试！
#计算机视觉 #科研 #深度学习 #深度学习与神经网络 #科研日常 #大模型 #频域 #语义分割 #论文 #科研学习

Arxiv每日学术速递推送Sonic相关研究进展

Sonic：轻量级语音驱动数字人技术的平民化突破在短视频日更、直播带货常态化、AI内容生产需求井喷的今天，一个现实问题摆在创作者面前：如何以最低成本，快速生成一段“会说话”的数字人视频？传统方案动辄需要3D建模师、…

李华

Sonic模型适配虚拟主播场景，实现7x24小时不间断直播

Sonic模型适配虚拟主播场景，实现7x24小时不间断直播在电商直播间里，一个形象精致的虚拟主播正娓娓道来最新款产品的卖点——语气自然、口型精准、表情生动。更令人惊讶的是，这并非由专业团队耗时数日制作的预录视频，而是AI实时驱…

李华

通过API接口远程调用Sonic服务生成数字人视频

通过API接口远程调用Sonic服务生成数字人视频在短视频日活破十亿、虚拟内容消费呈指数级增长的今天，一个现实问题摆在内容创作者面前：如何以极低的成本，在几分钟内批量生成高质量的“会说话的人物”视频？传统方案依赖真人出镜或3…

李华

MicroPython片上外设映射关系全面讲解

深入理解MicroPython的片上外设映射：从GPIO到SPI，打通软硬交互的关键路径你有没有遇到过这样的情况：写好了MicroPython代码，烧录进开发板后却发现LED不亮、传感器没响应？或者UART通信一直收不到数据，查了半…

李华

研究生课题基于Sonic改进唇形同步算法精度

研究生课题基于Sonic改进唇形同步算法精度在虚拟主播24小时不间断直播、AI教师批量生成教学视频的今天，一个关键问题始终困扰着数字人开发者：嘴型对不上声音。哪怕只是几十毫秒的偏差，都会让用户产生“这不是真人”的认知断裂。而真正实现自…

李华

Sonic数字人项目使用Redis缓存高频访问数据

Sonic数字人项目使用Redis缓存高频访问数据在短视频与虚拟内容爆发式增长的今天，用户对“一键生成会说话的数字人”这类应用的期待越来越高。无论是电商主播、在线课程讲师，还是品牌营销视频，都希望以低成本、高效率的方式批量产出高质量的口…

李华