点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
Paper:https://arxiv.org/pdf/2510.26451
Code:https://github.com/RingBDStack/MRGC
讲解视频: https://www.bilibili.com/video/BV18oUYBPEex
点击边框调出视频工具条
图压缩(Graph Condensation, GC)作为一种新兴技术,能够有效地减少大规模图数据的大小,同时保留训练图神经网络(GNN)所需的关键信息。然而,现有的图压缩方法在面对对抗攻击时往往显得脆弱不堪。
本文介绍了一项我们最新的研究工作 MRGC (Manifold-constrained Robust Graph Condensation)。该研究首次从流形几何的视角出发,深入剖析了对抗攻击破坏图压缩性能的本质原因,并提出了一种通用的防御框架,在特征、结构和标签攻击下均实现了卓越的鲁棒性。
01 背景与挑战:脆弱的压缩图
随着图数据规模的爆炸式增长,图压缩(GC)技术应运而生。它通过合成一个微小的“压缩图”,使得在上面训练的 GNN 能够达到与在原始大图上训练相近的性能。
然而,现实场景中的图数据往往充满噪声甚至面临恶意攻击。现有的 GC 方法大多假设原始数据是干净的。一旦原始图受到特征、结构或标签的污染,合成出的压缩图质量就会急剧下降,导致下游任务性能崩塌。
图中展示了GCond在原始图受到不同程度的结构、特征、标签攻击时,压缩图的质量变化情况。
面对这一挑战,我们提出了三个核心问题:
Q1:现有的鲁棒图学习技术能直接提升 GC 的鲁棒性吗?
Q2:攻击究竟破坏了 GC 的什么关键属性?能否从理论上解释?
Q3:如何设计一种通用的防御策略来应对各种攻击?
02 预实验分析
现有防御手段的失效 (Answer to Q1)
在深入探讨解决方案之前,我们需要先回答一个核心的 Motivation 问题:为什么我们需要一个新的视角?
当发现图压缩在面对攻击(如结构扰动、特征噪声)时性能大幅下降,研究者的第一直觉往往是:“我们有那么多成熟的鲁棒 GNN(Robust GNNs),拿来用不就行了吗?”
为了验证这一点,我们进行了一组Toy Cases:
策略一: 将经典的鲁棒模型(如 MedianGCN)直接作为图压缩的骨干网络(Backbone)。
策略二: 在被攻击的图上进行压缩,然后用鲁棒模型在压缩图上进行训练。
结果令人大跌眼镜: 这些策略不仅没有提升鲁棒性,效果甚至比直接使用普通 GCN 还要差!
深层原因分析: 现有的鲁棒 GNN 大多依赖于注意力机制或重加权机制来过滤噪声。然而,图压缩生成的合成图是一个高度抽象、密集的结构。在这样的合成数据上,传统的去噪机制往往会“水土不服”,甚至错误地过滤掉关键的压缩信息。
这迫使我们思考:如果单纯修补模型行不通,是不是我们忽略了数据本身在攻击下发生的某种本质变化?
图中展示了Gcond在两种情况下的压缩图质量:(1)使用鲁棒图神经网络MedianGCN作为Graph Condensation的backbone【+M】(2)用鲁棒图神经网络MedianGCN在压缩后的图上进行训练【*M】
核心发现:分类复杂度的几何解释 (Answer to Q2)
为了量化这种“本质变化”,引入我们了一个经典的机器学习理论概念——分类复杂度(Classification Complexity)。
什么是分类复杂度?
简单来说,它衡量的是“将数据正确分类的几何难度”。想象一下,你的数据点分布在一个高维空间中,如果不同类别的点泾渭分明、边界平滑,那么分类就很简单;如果点混在一起、边界像锯齿一样复杂,分类就很难。
论文借鉴了 Ho & Basu 的理论[1],从流形几何的视角,将分类复杂度拆解为三个核心维度:
1. 本征维度 (Intrinsic Dimension, ID)
定义: 数据虽然是在高维空间(如 1000 维特征)中表示的,但它们通常只分布在一个低维的流形(Manifold)上。这个流形的维度就是本征维度。
直观理解: 就像一张纸是二维的,即使把它揉成一团扔进三维空间,它的本质(本征维度)依然是二维的。
与鲁棒性的关系: 维度越低,数据结构越紧凑,模型越容易学习;维度越高,数据越稀疏,越容易受到“维度灾难”的影响,模型也越难泛化。
2. 边界复杂度 (Boundary Complexity)
定义: 不同类别数据流形之间交界面的复杂程度,通常用曲率(Curvature)来衡量。
直观理解: 想象两个国家的边境线。如果是平直的直线,很容易划分;如果是蜿蜒曲折、犬牙交错的海岸线,划分起来就非常困难。
与鲁棒性的关系: 攻击往往会扭曲特征空间,让原本平滑的决策边界变得“皱皱巴巴”,导致分类器在边界处极易出错。
3. 类别歧义 (Class Ambiguity)
定义: 不同类别流形之间的重叠程度。
直观理解: 红色点和蓝色点混在一起的区域大小。
与鲁棒性的关系: 重叠区域越大,分类器就越难以区分,这是分类错误的直接来源。
基于上述理论,我们利用本征维度、Fisher 判别比等指标,监测了图压缩过程中的数据变化,发现了一个极其关键的规律:
图中展示了intrinsic dimension(衡量本征维度)、Fisher's Discriminant Ratio(衡量边界复杂度)、Fraction of Hyperspheres Covering Data(衡量类别歧义)三个指标在受攻击图压缩过程中的变化
1.图压缩的本质是“降维”与“简化”:在正常的图压缩过程中,生成的数据流形本征维度会显著下降(平均下降 89.25%)。这意味着,图压缩天然地具有降低分类复杂度的倾向,它试图把复杂的大图压缩成简单、纯粹的小图。
2.对抗攻击的本质是“升维”与“致乱”:一旦加入对抗攻击,生成的压缩图的分类复杂度指标会瞬间飙升(平均增加 547.54%)
这就是问题的症结所在!
对抗攻击并没有神奇地摧毁模型,而是通过注入扰动,强行逆转了图压缩“降低分类复杂度”的这一关键几何属性。它让本该低维、平滑、分离的压缩图流形,变得高维、扭曲且重叠。
结论:对抗攻击通过破坏 GC “降低分类复杂度” 这一关键属性,导致了性能的下降。
03 MRGC:基于流形约束的鲁棒图压缩
基于上述发现 (Answer to Q3),研究团队提出了 MRGC 框架。其核心思想是:在图压缩的过程中,强制约束生成的压缩图保持低分类复杂度的几何特性。
MRGC 包含三个互补的流形学习模块,分别应对三个挑战:
1. 本征维度流形正则化 (Intrinsic Dimension Manifold Regularization)
目标: 压制由攻击引起的本征维度升高。
分析显示,图压缩应使得 (ID(G') < ID(G)),而攻击会破坏这一不等式。MRGC 利用拉普拉斯近似(Laplacian approximation)来估计压缩图流形的本征维度,并将其作为正则化项进行约束。其核心约束如下:
这迫使压缩图保持在一个低维流形上。
目标: 简化类间边界的复杂度。
复杂的决策边界意味着更高的分类难度。MRGC 引入了高斯曲率(Gaussian Curvature)\来衡量流形的弯曲程度,并结合\Ricci 曲率来加权节点的结构重要性。通过最小化加权高斯曲率,模型能够生成具有平滑决策边界的压缩图:
其中K是通过在切空间拟合二次超曲面计算得到的节点高斯曲率。
3. 类级流形解耦 (Class-Wise Manifold Decoupling)
目标: 缓解类间歧义。
攻击往往导致不同类别的流形发生重叠。MRGC 通过最小化“各类流形体积之和”与“整体数据流形体积”的差值,来促使不同类别的流形尽可能分离:
这有效增强了压缩图中类别的可分性。
04 实验结果
我们在 Cora, CiteSeer, PubMed 等五个真实数据集上,针对结构攻击、特征攻击和标签攻击进行了广泛的实验。
1. 变压缩率测试
在绝大多数数据集和压缩率下,MRGC 都取得了最优的性能。在 Cora 数据集上,无论压缩率是 1.3%、2.6% 还是 5.2%,MRGC 均大幅领先。特别是在 PubMed (0.08% 压缩率) 上,MRGC 比次优方法高出约 4% 的准确率。
2. 变攻击预算测试
固定了压缩率,分别针对结构(Structure)、特征(Feature)、标签(Label)三种攻击类型,逐渐增加攻击预算(Attack Budget)。RobGC 专门针对结构攻击设计,因此在结构扰动下表现尚可。但在面对特征攻击和标签翻转时,RobGC 的性能出现严重下滑,甚至不如普通基线。无论攻击来自哪个维度,MRGC 均保持了极高的稳定性。例如在 CiteSeer 数据集上,当标签扰动高达 40% 时,MRGC 依然比第二名高出 4.75%。
3 消融实验
MRGC 由三个核心模块组成:
1.D: 本征维度流形正则化
2.C: 曲率感知流形平滑
3.S: 类级流形解耦
为了验证每个模块的贡献,分别移除了各个模块进行测试(w/o D, w/o C, w/o S)。 移除任何一个模块,MRGC 的性能都会出现下降。这证明了三个模块从不同角度(维度压缩、边界平滑、类别分离)共同构建了防御体系。实验数据显示,移除本征维度正则化(w/o ID)导致的性能下降最为明显。
4 分类复杂度研究
实验分析表明,在受到攻击时,普通 GC 方法生成的图的本征维度(ID)、Fisher 判别比(FDR)等指标会剧烈上升。而 MRGC 成功将这些指标维持在较低水平,验证了其通过保护几何属性来提升鲁棒性的核心假设。
05 总结
我们为图压缩的鲁棒性研究提供了新的视角。与传统的对抗训练或去噪预处理不同,MRGC从数据流形的几何视角出发,通过约束本征维度、平滑流形曲率和解耦类间流形,成功抵御了来自特征、结构和标签的多重攻击。揭示了图压缩“降低分类复杂度”的内在机理。
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击阅读原文查看作者直播回放!