论文标题 :Bilateral Event Mining and Complementary for Event Stream Super-Resolution
论文原文 (Paper):https://openaccess.thecvf.com/content/CVPR2024/papers/Huang_Bilateral_Event_Mining_and_Complementary_for_Event_Stream_Super-Resolution_CVPR_2024_paper.pdf
代码地址:https://github.com/Lqm26/BMCNet-ESR
GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0
目录
- 1. 核心思想
- 2. 背景与动机
- 文本角度总结
- 动机图解分析
- 3. 主要创新点
- 4. 方法细节(核心部分)
- 整体网络架构
- 核心创新模块详解:Bilateral Information Exchange (BIE)
- 理念与机制总结
- 图解总结
- 5. 即插即用模块的作用
- 6. 实验分析
- 7. 获取即插即用代码关注 【AI即插即用】
1. 核心思想
本文针对事件流超分辨率(ESR)任务,提出了一种名为BMCNet (Bilateral Event Mining and Complementary Network)的双流网络架构。核心论点在于打破传统方法将正负事件混合处理的范式,转而将正负事件解耦(Decoupling)为两个独立的分支进行特征挖掘,以保留其独特的分布特性。同时,设计了双边信息交换模块(BIE),在特征通道维度上实现正负流之间的全局结构信息交互,利用两者在时空上的强相关性进行相互补充和细化,从而显著提升了超分辨率的边缘清晰度和细节恢复能力。
2. 背景与动机
文本角度总结
事件相机(Event Camera)虽然具有高动态范围和低延迟的优势,但现有的商用传感器空间分辨率通常较低(如 DAVIS346 仅为 346x260),限制了其在精细场景中的应用。现有的基于学习的 ESR 方法通常简单地将正事件(Positive Events)和负事件(Negative Events)混合在一起(例如叠加通道或直接体素化)输入网络。
存在的问题:正负事件虽然在物理上描述的是亮度的增减,具有不同的分布特性,但它们在空间结构上是高度相关的(通常发生在同一物体边缘)。混合处理(Mixed Paradigm)容易导致模型混淆两者的特性,且难以有效利用一方的信息去修复另一方的缺失(即“互补性”未被利用),最终导致超分结果出现伪影或边缘模糊。
动机图解分析
看图说话:
- 图 1 (a) Previous methods(混合范式):
- 传统方法将n t n_tnt(负事件)和p t p_tpt(正事件)混合成 Mixed Features 输入到一个单一的 ESR 网络中。
- 局限性:输出的e t H R e_t^{HR}etHR(高分辨率事件)中,正负极性的边缘往往纠缠不清,且由于噪声或稀疏性导致的断裂无法得到有效修复。模型需要在一个通道内同时拟合两种分布,增加了学习难度。
- 图 1 (b) Ours(本文范式):
- 解耦设计:BMCNet 将n t n_tnt和p t p_tpt分别送入N Stream和P Stream两个独立分支。
- 双边信息交换 (BIE):中间的模块负责在两个流之间“传递情报”。
- 互补机制:利用正事件的结构去填补负事件的空缺(反之亦然)。
- 结果:输出的e t H R e_t^{HR}etHR结构更加清晰,正负事件各司其职又相互增强,有效解决了混合处理带来的特征干扰问题。
3. 主要创新点
- 双流解耦架构 (Two-stream Architecture):提出了一种分别处理正负事件的解耦网络结构,能够独立建模每种极性事件的独特数据分布,避免混合干扰。
- 双边信息交换模块 (BIE Module):设计了一种新颖的即插即用模块,用于在两个流之间交换全局结构信息。它在通道维度上建模相关性,能够有效过滤空间噪声。
- 跨层交互表示 (CIR):引入了 CIR 机制,使得信息不仅在当前层的正负流之间交换,还能跨越层级和时间步传递分层的上下文信息。
- SOTA 性能:在真实和合成数据集上,相比之前的 SOTA 方法(如 RecEvSR),性能提升超过11%,并在下游任务(识别、重建)中表现优异。
4. 方法细节(核心部分)
整体网络架构
数据流全解析:
- 输入 (Input):将低分辨率事件流解耦为正事件流p t p_tpt和负事件流n t n_tnt,并转换为 Event Count Image 格式。
- 双流编码路径:
- P-Stream (下路)&N-Stream (上路):两个完全平行的处理分支。
- Inner-stream BIE:在每个流内部,利用 BIE 模块融合“当前帧的空间特征”和“跨帧的时序特征”(利用 Residual Block 提取)。
- Inter-stream BIE:这是核心。在每一层级,P 流和 N 流的特征会进入 Inter-stream BIE 进行交互。这里引入了CIR (Cross-layer Interaction Representation),将上一层的全局信息传递下来。
- 特征融合与输出:
- 经过L LL层处理后,每个流的输出分别经过上采样(Pixel Shuffle)。
- 最后将上采样后的特征与残差相加,得到高分辨率的正事件p t H R p_t^{HR}ptHR和负事件n t H R n_t^{HR}ntHR,最终合并为完整的 HR 事件流。
核心创新模块详解:Bilateral Information Exchange (BIE)
这是论文最核心的模块 A,其设计非常精妙。
内部结构拆解(以 P 到 N 的信息传播为例):
- 输入:
- H n l H_n^lHnl:当前 N 流的特征(接收方)。
- H p l H_p^lHpl:当前 P 流的特征(提供方/互补方)。
- H i n t l H_{int}^lHintl:跨层交互表示(CIR),携带上下文先验。
- 查询-键-值 (Q-K-V) 生成:
- Query (Q n Q_nQn):由 N 流特征H n l H_n^lHnl和 CIR 融合生成。代表“我(负事件)当前缺什么,需要查询什么结构”。
- Key (K p K_pKp) & Value (V p V_pVp):由 P 流特征H p l H_p^lHpl生成。代表“我(正事件)拥有什么结构信息”。
- 通道维度的相关性计算 (Channel-wise Attention):
- 计算Q n Q_nQn和K p K_pKp的相关性矩阵A n ← p A_{n \leftarrow p}An←p。注意,这里是在通道维度(把每个通道看作一种结构表示)进行计算,而不是空间维度。
- 设计理念:事件数据稀疏且噪声多,空间上的点对点 Attention 容易被噪声误导。而通道维度聚合了全局结构语义,更加鲁棒。
- 特征聚合与门控融合 (Gated Mixing):
- 利用注意力图对V p V_pVp进行加权,得到互补特征H p → n H_{p \to n}Hp→n。
- Gated Mixing:使用一个 Sigmoid 门控单元Z ZZ,动态决定保留多少原始特征,以及接受多少来自对面的互补特征。公式为:
H o u t = Z ⊙ H o r i g + ( 1 − Z ) ⊙ H c o m p l e m e n t H_{out} = Z \odot H_{orig} + (1-Z) \odot H_{complement}Hout=Z⊙Horig+(1−Z)⊙Hcomplement - 这保证了只有在正负事件确实存在相关性(如边缘处)时,互补信息才会被利用,避免无效信息的干扰。
理念与机制总结
- 解耦与互补 (Decouple & Complement):BMCNet 的哲学是“和而不同”。正负事件分布不同(需要解耦),但描述同一物理世界(存在互补)。
- 通道即结构 (Channel as Structure):BIE 模块摒弃了常见的 Spatial Attention,转而使用 Channel Attention 变体。作者认为单个通道代表了一种全局结构响应。通过通道交互,可以把 P 事件中完整的边缘结构“借”给 N 事件中可能断裂的边缘,从而实现全局结构的修复。
- CIR 的时空桥梁作用:CIR 像一个记忆胶囊,随着层级加深不断更新,它使得深层的 BIE 模块不仅能看到当前层的特征,还能“回忆”起浅层的结构信息,增强了特征的层次感。
图解总结
结合 Figure 1 的动机,BMCNet 通过 Figure 2 的双流架构保证了正负事件特征不被混淆(解决了分布冲突问题);通过 Figure 3 的 BIE 模块,在正负流之间搭建了桥梁,使得高信噪比的一方可以辅助低信噪比的一方(解决了信息缺失和噪声干扰问题)。
5. 即插即用模块的作用
本文提出的Bilateral Information Exchange (BIE)模块具有很强的通用性,适用于以下场景:
- 多模态融合任务:
- RGB-Event 融合:可以将 P 流和 N 流 替换为 RGB 图像分支和 Event 分支。利用 BIE 在通道维度融合两种模态的结构信息,用于去模糊、超分或帧插值。
- RGB-Depth 融合:用于深度补全或 RGB-D 语义分割,利用 RGB 的纹理结构辅助 Depth 的边缘修复。
- 双流网络架构:
- 任何采用 Two-stream 架构的任务(如光流估计中的不同分辨率流,或视频处理中的时域/空域流),都可以用 BIE 替代简单的 Concat 或 Sum,进行更细粒度的特征交互。
- 立体匹配 (Stereo Matching):
- 在左右目图像特征融合阶段,利用 BIE 增强左右视图之间的结构一致性。
6. 实验分析
- 对比基准:实验对比了 EventZoom, RecEvSR, RSTT 等方法。
- 定量分析:
- 在合成数据集(NFS-syn, RGB-syn)和真实数据集(EventNFS-real)上,BMCNet 均取得了 SOTA。
- 关键指标:相比之前的 SOTA (RecEvSR),RMSE 降低显著,性能提升幅度达到11%。虽然参数量有所增加(因为是双流),但 FLOPs 控制得当,且提供了轻量版 BMCNet-plain(去掉了流内 BIE),在参数量极低的情况下依然超越了 RecEvSR。
- 定性分析:
- 可视化结果显示,BMCNet 恢复的事件流边缘更加锐利,且由混合处理导致的“重影”或“伪影”明显减少(见文中 Figure 6 的 artifact 分析)。
- 下游任务:
- 在目标识别和视频重建任务中,使用 BMCNet 超分后的数据作为输入,各项指标(Accuracy, SSIM)均优于其他超分方法,证明了其生成的事件流不仅好看,而且好用(包含更多有效语义)。
到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。