NeurIPS 2025 | 从流形几何视角重塑图压缩的对抗鲁棒性-平芜编程栈

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

Paper:https://arxiv.org/pdf/2510.26451

Code:https://github.com/RingBDStack/MRGC

讲解视频: https://www.bilibili.com/video/BV18oUYBPEex

点击边框调出视频工具条

图压缩（Graph Condensation, GC）作为一种新兴技术，能够有效地减少大规模图数据的大小，同时保留训练图神经网络（GNN）所需的关键信息。然而，现有的图压缩方法在面对对抗攻击时往往显得脆弱不堪。

本文介绍了一项我们最新的研究工作 MRGC (Manifold-constrained Robust Graph Condensation)。该研究首次从流形几何的视角出发，深入剖析了对抗攻击破坏图压缩性能的本质原因，并提出了一种通用的防御框架，在特征、结构和标签攻击下均实现了卓越的鲁棒性。

01 背景与挑战：脆弱的压缩图

随着图数据规模的爆炸式增长，图压缩（GC）技术应运而生。它通过合成一个微小的“压缩图”，使得在上面训练的 GNN 能够达到与在原始大图上训练相近的性能。

然而，现实场景中的图数据往往充满噪声甚至面临恶意攻击。现有的 GC 方法大多假设原始数据是干净的。一旦原始图受到特征、结构或标签的污染，合成出的压缩图质量就会急剧下降，导致下游任务性能崩塌。

图中展示了GCond在原始图受到不同程度的结构、特征、标签攻击时，压缩图的质量变化情况。

面对这一挑战，我们提出了三个核心问题：

Q1：现有的鲁棒图学习技术能直接提升 GC 的鲁棒性吗？

Q2：攻击究竟破坏了 GC 的什么关键属性？能否从理论上解释？

Q3：如何设计一种通用的防御策略来应对各种攻击？

02 预实验分析

现有防御手段的失效 (Answer to Q1)

在深入探讨解决方案之前，我们需要先回答一个核心的 Motivation 问题：为什么我们需要一个新的视角？

当发现图压缩在面对攻击（如结构扰动、特征噪声）时性能大幅下降，研究者的第一直觉往往是：“我们有那么多成熟的鲁棒 GNN（Robust GNNs），拿来用不就行了吗？”

为了验证这一点，我们进行了一组Toy Cases：

策略一：将经典的鲁棒模型（如 MedianGCN）直接作为图压缩的骨干网络（Backbone）。

策略二：在被攻击的图上进行压缩，然后用鲁棒模型在压缩图上进行训练。

结果令人大跌眼镜：这些策略不仅没有提升鲁棒性，效果甚至比直接使用普通 GCN 还要差！

深层原因分析：现有的鲁棒 GNN 大多依赖于注意力机制或重加权机制来过滤噪声。然而，图压缩生成的合成图是一个高度抽象、密集的结构。在这样的合成数据上，传统的去噪机制往往会“水土不服”，甚至错误地过滤掉关键的压缩信息。

这迫使我们思考：如果单纯修补模型行不通，是不是我们忽略了数据本身在攻击下发生的某种本质变化？

图中展示了Gcond在两种情况下的压缩图质量：（1）使用鲁棒图神经网络MedianGCN作为Graph Condensation的backbone【+M】（2）用鲁棒图神经网络MedianGCN在压缩后的图上进行训练【*M】

核心发现：分类复杂度的几何解释 (Answer to Q2)

为了量化这种“本质变化”，引入我们了一个经典的机器学习理论概念——分类复杂度（Classification Complexity）。

什么是分类复杂度？

简单来说，它衡量的是“将数据正确分类的几何难度”。想象一下，你的数据点分布在一个高维空间中，如果不同类别的点泾渭分明、边界平滑，那么分类就很简单；如果点混在一起、边界像锯齿一样复杂，分类就很难。

论文借鉴了 Ho & Basu 的理论[1]，从流形几何的视角，将分类复杂度拆解为三个核心维度：

1. 本征维度 (Intrinsic Dimension, ID)

定义：数据虽然是在高维空间（如 1000 维特征）中表示的，但它们通常只分布在一个低维的流形（Manifold）上。这个流形的维度就是本征维度。

直观理解：就像一张纸是二维的，即使把它揉成一团扔进三维空间，它的本质（本征维度）依然是二维的。

与鲁棒性的关系：维度越低，数据结构越紧凑，模型越容易学习；维度越高，数据越稀疏，越容易受到“维度灾难”的影响，模型也越难泛化。

2. 边界复杂度 (Boundary Complexity)

定义：不同类别数据流形之间交界面的复杂程度，通常用曲率（Curvature）来衡量。

直观理解：想象两个国家的边境线。如果是平直的直线，很容易划分；如果是蜿蜒曲折、犬牙交错的海岸线，划分起来就非常困难。

与鲁棒性的关系：攻击往往会扭曲特征空间，让原本平滑的决策边界变得“皱皱巴巴”，导致分类器在边界处极易出错。

3. 类别歧义 (Class Ambiguity)

定义：不同类别流形之间的重叠程度。

直观理解：红色点和蓝色点混在一起的区域大小。

与鲁棒性的关系：重叠区域越大，分类器就越难以区分，这是分类错误的直接来源。

基于上述理论，我们利用本征维度、Fisher 判别比等指标，监测了图压缩过程中的数据变化，发现了一个极其关键的规律：

图中展示了intrinsic dimension（衡量本征维度）、Fisher's Discriminant Ratio（衡量边界复杂度）、Fraction of Hyperspheres Covering Data（衡量类别歧义）三个指标在受攻击图压缩过程中的变化

1.图压缩的本质是“降维”与“简化”：在正常的图压缩过程中，生成的数据流形本征维度会显著下降（平均下降 89.25%）。这意味着，图压缩天然地具有降低分类复杂度的倾向，它试图把复杂的大图压缩成简单、纯粹的小图。

2.对抗攻击的本质是“升维”与“致乱”：一旦加入对抗攻击，生成的压缩图的分类复杂度指标会瞬间飙升（平均增加 547.54%）

这就是问题的症结所在！

对抗攻击并没有神奇地摧毁模型，而是通过注入扰动，强行逆转了图压缩“降低分类复杂度”的这一关键几何属性。它让本该低维、平滑、分离的压缩图流形，变得高维、扭曲且重叠。

结论：对抗攻击通过破坏 GC “降低分类复杂度” 这一关键属性，导致了性能的下降。

03 MRGC：基于流形约束的鲁棒图压缩

基于上述发现 (Answer to Q3)，研究团队提出了 MRGC 框架。其核心思想是：在图压缩的过程中，强制约束生成的压缩图保持低分类复杂度的几何特性。

MRGC 包含三个互补的流形学习模块，分别应对三个挑战：

1. 本征维度流形正则化 (Intrinsic Dimension Manifold Regularization)

目标：压制由攻击引起的本征维度升高。

分析显示，图压缩应使得 (ID(G') < ID(G))，而攻击会破坏这一不等式。MRGC 利用拉普拉斯近似（Laplacian approximation）来估计压缩图流形的本征维度，并将其作为正则化项进行约束。其核心约束如下：

这迫使压缩图保持在一个低维流形上。

目标：简化类间边界的复杂度。

复杂的决策边界意味着更高的分类难度。MRGC 引入了高斯曲率（Gaussian Curvature）\来衡量流形的弯曲程度，并结合\Ricci 曲率来加权节点的结构重要性。通过最小化加权高斯曲率，模型能够生成具有平滑决策边界的压缩图：

其中K是通过在切空间拟合二次超曲面计算得到的节点高斯曲率。

3. 类级流形解耦 (Class-Wise Manifold Decoupling)

目标：缓解类间歧义。

攻击往往导致不同类别的流形发生重叠。MRGC 通过最小化“各类流形体积之和”与“整体数据流形体积”的差值，来促使不同类别的流形尽可能分离：

这有效增强了压缩图中类别的可分性。

04 实验结果

我们在 Cora, CiteSeer, PubMed 等五个真实数据集上，针对结构攻击、特征攻击和标签攻击进行了广泛的实验。

1. 变压缩率测试

在绝大多数数据集和压缩率下，MRGC 都取得了最优的性能。在 Cora 数据集上，无论压缩率是 1.3%、2.6% 还是 5.2%，MRGC 均大幅领先。特别是在 PubMed (0.08% 压缩率) 上，MRGC 比次优方法高出约 4% 的准确率。

2. 变攻击预算测试

固定了压缩率，分别针对结构（Structure）、特征（Feature）、标签（Label）三种攻击类型，逐渐增加攻击预算（Attack Budget）。RobGC 专门针对结构攻击设计，因此在结构扰动下表现尚可。但在面对特征攻击和标签翻转时，RobGC 的性能出现严重下滑，甚至不如普通基线。无论攻击来自哪个维度，MRGC 均保持了极高的稳定性。例如在 CiteSeer 数据集上，当标签扰动高达 40% 时，MRGC 依然比第二名高出 4.75%。

3 消融实验

MRGC 由三个核心模块组成：

1.D：本征维度流形正则化

2.C：曲率感知流形平滑

3.S：类级流形解耦

为了验证每个模块的贡献，分别移除了各个模块进行测试（w/o D, w/o C, w/o S）。移除任何一个模块，MRGC 的性能都会出现下降。这证明了三个模块从不同角度（维度压缩、边界平滑、类别分离）共同构建了防御体系。实验数据显示，移除本征维度正则化（w/o ID）导致的性能下降最为明显。

4 分类复杂度研究

实验分析表明，在受到攻击时，普通 GC 方法生成的图的本征维度（ID）、Fisher 判别比（FDR）等指标会剧烈上升。而 MRGC 成功将这些指标维持在较低水平，验证了其通过保护几何属性来提升鲁棒性的核心假设。

05 总结

我们为图压缩的鲁棒性研究提供了新的视角。与传统的对抗训练或去噪预处理不同，MRGC从数据流形的几何视角出发，通过约束本征维度、平滑流形曲率和解耦类间流形，成功抵御了来自特征、结构和标签的多重攻击。揭示了图压缩“降低分类复杂度”的内在机理。

往期精彩文章推荐

关于AI TIME