news 2026/3/11 19:43:08

NeurIPS 2025 | 从流形几何视角重塑图压缩的对抗鲁棒性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NeurIPS 2025 | 从流形几何视角重塑图压缩的对抗鲁棒性

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

Paper:https://arxiv.org/pdf/2510.26451

Code:https://github.com/RingBDStack/MRGC

讲解视频: https://www.bilibili.com/video/BV18oUYBPEex

点击边框调出视频工具条

图压缩(Graph Condensation, GC)作为一种新兴技术,能够有效地减少大规模图数据的大小,同时保留训练图神经网络(GNN)所需的关键信息。然而,现有的图压缩方法在面对对抗攻击时往往显得脆弱不堪。

本文介绍了一项我们最新的研究工作 MRGC (Manifold-constrained Robust Graph Condensation)。该研究首次从流形几何的视角出发,深入剖析了对抗攻击破坏图压缩性能的本质原因,并提出了一种通用的防御框架,在特征、结构和标签攻击下均实现了卓越的鲁棒性。

01 背景与挑战:脆弱的压缩图

随着图数据规模的爆炸式增长,图压缩(GC)技术应运而生。它通过合成一个微小的“压缩图”,使得在上面训练的 GNN 能够达到与在原始大图上训练相近的性能。

然而,现实场景中的图数据往往充满噪声甚至面临恶意攻击。现有的 GC 方法大多假设原始数据是干净的。一旦原始图受到特征、结构或标签的污染,合成出的压缩图质量就会急剧下降,导致下游任务性能崩塌。

图中展示了GCond在原始图受到不同程度的结构、特征、标签攻击时,压缩图的质量变化情况。

面对这一挑战,我们提出了三个核心问题:

Q1:现有的鲁棒图学习技术能直接提升 GC 的鲁棒性吗?

Q2:攻击究竟破坏了 GC 的什么关键属性?能否从理论上解释?

Q3:如何设计一种通用的防御策略来应对各种攻击?

02 预实验分析

现有防御手段的失效 (Answer to Q1)

在深入探讨解决方案之前,我们需要先回答一个核心的 Motivation 问题:为什么我们需要一个新的视角?

当发现图压缩在面对攻击(如结构扰动、特征噪声)时性能大幅下降,研究者的第一直觉往往是:“我们有那么多成熟的鲁棒 GNN(Robust GNNs),拿来用不就行了吗?”

为了验证这一点,我们进行了一组Toy Cases:

策略一: 将经典的鲁棒模型(如 MedianGCN)直接作为图压缩的骨干网络(Backbone)。

策略二: 在被攻击的图上进行压缩,然后用鲁棒模型在压缩图上进行训练。

结果令人大跌眼镜: 这些策略不仅没有提升鲁棒性,效果甚至比直接使用普通 GCN 还要差!

深层原因分析: 现有的鲁棒 GNN 大多依赖于注意力机制或重加权机制来过滤噪声。然而,图压缩生成的合成图是一个高度抽象、密集的结构。在这样的合成数据上,传统的去噪机制往往会“水土不服”,甚至错误地过滤掉关键的压缩信息。

这迫使我们思考:如果单纯修补模型行不通,是不是我们忽略了数据本身在攻击下发生的某种本质变化?

图中展示了Gcond在两种情况下的压缩图质量:(1)使用鲁棒图神经网络MedianGCN作为Graph Condensation的backbone【+M】(2)用鲁棒图神经网络MedianGCN在压缩后的图上进行训练【*M】

核心发现:分类复杂度的几何解释 (Answer to Q2)

为了量化这种“本质变化”,引入我们了一个经典的机器学习理论概念——分类复杂度(Classification Complexity)。

什么是分类复杂度?

简单来说,它衡量的是“将数据正确分类的几何难度”。想象一下,你的数据点分布在一个高维空间中,如果不同类别的点泾渭分明、边界平滑,那么分类就很简单;如果点混在一起、边界像锯齿一样复杂,分类就很难。

论文借鉴了 Ho & Basu 的理论[1],从流形几何的视角,将分类复杂度拆解为三个核心维度:

1. 本征维度 (Intrinsic Dimension, ID)

定义: 数据虽然是在高维空间(如 1000 维特征)中表示的,但它们通常只分布在一个低维的流形(Manifold)上。这个流形的维度就是本征维度。

直观理解: 就像一张纸是二维的,即使把它揉成一团扔进三维空间,它的本质(本征维度)依然是二维的。

与鲁棒性的关系: 维度越低,数据结构越紧凑,模型越容易学习;维度越高,数据越稀疏,越容易受到“维度灾难”的影响,模型也越难泛化。

2. 边界复杂度 (Boundary Complexity)

定义: 不同类别数据流形之间交界面的复杂程度,通常用曲率(Curvature)来衡量。

直观理解: 想象两个国家的边境线。如果是平直的直线,很容易划分;如果是蜿蜒曲折、犬牙交错的海岸线,划分起来就非常困难。

与鲁棒性的关系: 攻击往往会扭曲特征空间,让原本平滑的决策边界变得“皱皱巴巴”,导致分类器在边界处极易出错。

3. 类别歧义 (Class Ambiguity)

定义: 不同类别流形之间的重叠程度。

直观理解: 红色点和蓝色点混在一起的区域大小。

与鲁棒性的关系: 重叠区域越大,分类器就越难以区分,这是分类错误的直接来源。

基于上述理论,我们利用本征维度、Fisher 判别比等指标,监测了图压缩过程中的数据变化,发现了一个极其关键的规律:

图中展示了intrinsic dimension(衡量本征维度)、Fisher's Discriminant Ratio(衡量边界复杂度)、Fraction of Hyperspheres Covering Data(衡量类别歧义)三个指标在受攻击图压缩过程中的变化

1.图压缩的本质是“降维”与“简化”:在正常的图压缩过程中,生成的数据流形本征维度会显著下降(平均下降 89.25%)。这意味着,图压缩天然地具有降低分类复杂度的倾向,它试图把复杂的大图压缩成简单、纯粹的小图。

2.对抗攻击的本质是“升维”与“致乱”:一旦加入对抗攻击,生成的压缩图的分类复杂度指标会瞬间飙升(平均增加 547.54%)

这就是问题的症结所在!

对抗攻击并没有神奇地摧毁模型,而是通过注入扰动,强行逆转了图压缩“降低分类复杂度”的这一关键几何属性。它让本该低维、平滑、分离的压缩图流形,变得高维、扭曲且重叠。

结论:对抗攻击通过破坏 GC “降低分类复杂度” 这一关键属性,导致了性能的下降。

03 MRGC:基于流形约束的鲁棒图压缩

基于上述发现 (Answer to Q3),研究团队提出了 MRGC 框架。其核心思想是:在图压缩的过程中,强制约束生成的压缩图保持低分类复杂度的几何特性。

MRGC 包含三个互补的流形学习模块,分别应对三个挑战:

1. 本征维度流形正则化 (Intrinsic Dimension Manifold Regularization)

目标: 压制由攻击引起的本征维度升高。

分析显示,图压缩应使得 (ID(G') < ID(G)),而攻击会破坏这一不等式。MRGC 利用拉普拉斯近似(Laplacian approximation)来估计压缩图流形的本征维度,并将其作为正则化项进行约束。其核心约束如下:

这迫使压缩图保持在一个低维流形上。

目标: 简化类间边界的复杂度。

复杂的决策边界意味着更高的分类难度。MRGC 引入了高斯曲率(Gaussian Curvature)\来衡量流形的弯曲程度,并结合\Ricci 曲率来加权节点的结构重要性。通过最小化加权高斯曲率,模型能够生成具有平滑决策边界的压缩图:

其中K是通过在切空间拟合二次超曲面计算得到的节点高斯曲率。

3. 类级流形解耦 (Class-Wise Manifold Decoupling)

目标: 缓解类间歧义。

攻击往往导致不同类别的流形发生重叠。MRGC 通过最小化“各类流形体积之和”与“整体数据流形体积”的差值,来促使不同类别的流形尽可能分离:

这有效增强了压缩图中类别的可分性。

04 实验结果

我们在 Cora, CiteSeer, PubMed 等五个真实数据集上,针对结构攻击、特征攻击和标签攻击进行了广泛的实验。

1. 变压缩率测试

在绝大多数数据集和压缩率下,MRGC 都取得了最优的性能。在 Cora 数据集上,无论压缩率是 1.3%、2.6% 还是 5.2%,MRGC 均大幅领先。特别是在 PubMed (0.08% 压缩率) 上,MRGC 比次优方法高出约 4% 的准确率。

2. 变攻击预算测试

固定了压缩率,分别针对结构(Structure)、特征(Feature)、标签(Label)三种攻击类型,逐渐增加攻击预算(Attack Budget)。RobGC 专门针对结构攻击设计,因此在结构扰动下表现尚可。但在面对特征攻击和标签翻转时,RobGC 的性能出现严重下滑,甚至不如普通基线。无论攻击来自哪个维度,MRGC 均保持了极高的稳定性。例如在 CiteSeer 数据集上,当标签扰动高达 40% 时,MRGC 依然比第二名高出 4.75%。

3 消融实验

MRGC 由三个核心模块组成:

1.D: 本征维度流形正则化

2.C: 曲率感知流形平滑

3.S: 类级流形解耦

为了验证每个模块的贡献,分别移除了各个模块进行测试(w/o D, w/o C, w/o S)。 移除任何一个模块,MRGC 的性能都会出现下降。这证明了三个模块从不同角度(维度压缩、边界平滑、类别分离)共同构建了防御体系。实验数据显示,移除本征维度正则化(w/o ID)导致的性能下降最为明显。

4 分类复杂度研究

实验分析表明,在受到攻击时,普通 GC 方法生成的图的本征维度(ID)、Fisher 判别比(FDR)等指标会剧烈上升。而 MRGC 成功将这些指标维持在较低水平,验证了其通过保护几何属性来提升鲁棒性的核心假设。

05 总结

我们为图压缩的鲁棒性研究提供了新的视角。与传统的对抗训练或去噪预处理不同,MRGC从数据流形的几何视角出发,通过约束本征维度、平滑流形曲率和解耦类间流形,成功抵御了来自特征、结构和标签的多重攻击。揭示了图压缩“降低分类复杂度”的内在机理。

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你

在看

提出观点,表达想法,欢迎

留言

点击阅读原文查看作者直播回放!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 7:12:08

电磁辐射安全监测:基站布局合理性分析模型

电磁辐射安全监测&#xff1a;基站布局合理性分析模型 在城市化进程不断加快的今天&#xff0c;5G基站如雨后春笋般遍布居民区、商业中心和交通枢纽。然而&#xff0c;公众对“头顶上的信号塔是否安全”的疑虑也日益增长——电磁辐射究竟会不会超标&#xff1f;新建基站会不会影…

作者头像 李华
网站建设 2026/3/10 4:39:15

为什么你的Docker日志看不到网络流量?Cilium可视化输出全解析

第一章&#xff1a;为什么你的Docker日志看不到网络流量&#xff1f;Docker 容器默认的日志系统仅捕获应用的标准输出&#xff08;stdout&#xff09;和标准错误&#xff08;stderr&#xff09;&#xff0c;这意味着网络请求本身不会自动记录到日志中&#xff0c;除非应用程序显…

作者头像 李华
网站建设 2026/3/4 14:26:59

城市管理决策支持:交通、环保等领域的推理建模

城市管理决策支持&#xff1a;交通、环保等领域的推理建模 在城市主干道上&#xff0c;车流如织&#xff0c;红绿灯机械地切换着节奏。突然&#xff0c;某路段车速骤降&#xff0c;导航系统开始自动推荐绕行路线——这背后&#xff0c;是一套复杂的实时决策机制在运转。然而&am…

作者头像 李华
网站建设 2026/3/10 14:03:40

基于51单片机无线智能畜禽养殖监控系统

**单片机设计介绍&#xff0c;基于51单片机无线智能畜禽养殖监控系统 文章目录一 概要二、功能设计设计思路三、 软件设计原理图五、 程序六、 文章目录一 概要 基于51单片机的无线智能畜禽养殖监控系统是一个集成了多种传感器和无线通信技术的综合性系统&#xff0c;旨在实现对…

作者头像 李华
网站建设 2026/3/4 6:18:10

安全事件响应手册:标准化应急处置推理流程

安全事件响应手册&#xff1a;标准化应急处置推理流程 在当前人工智能技术快速迭代的背景下&#xff0c;大模型“越大越强”的范式正面临边际效益递减的挑战。尤其是在数学证明、算法设计等需要严密逻辑链条的任务中&#xff0c;参数规模的增长并不总能带来推理能力的线性提升。…

作者头像 李华