news 2026/7/5 20:48:27

Graph Unlearning---论文总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Graph Unlearning---论文总结

一、研究背景

1、隐私法规与被遗忘权

近年来,随着《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)等法律法规的颁布,数据隐私保护成为了全球关注的焦点。其中最重要且最具争议的条款之一是“被遗忘权”(Right to be Forgotten)。这意味着数据主体(用户)有权要求服务提供商删除其存储的个人数据。

2、机器遗忘

在机器学习(ML)背景下,仅仅从数据库中删除数据是不够的,因为模型在训练过程中已经“记住”了这些数据的信息。为了真正合规,模型提供者必须消除被撤销数据对模型参数的影响。这一过程被称为“机器遗忘”

  • 传统方法:最彻底的方法是删除数据后**从头重新训练(Retraining from scratch)**模型。但这在计算上非常昂贵,尤其是当数据集很大、模型很复杂时,频繁的重训是不现实的。

  • 近似方法(SISA):为了加速,学术界提出了近似算法。其中最先进的是SISA(Sharded, Isolated, Sliced, and Aggregated) 框架。它的核心思想是将训练数据随机划分成多个不重叠的碎片(Shards),每个碎片训练一个子模型。当需要删除某条数据时,只需要重新训练该数据所在的那个碎片对应的子模型即可,从而大大节省时间。

3、图神经网络的兴起

现实世界中有大量数据是以图(Graph)的形式存在的,如社交网络、金融网络、生物网络等。图神经网络(GNN)在处理这些非欧几里得数据方面表现出色。因此,如何在GNN中实现高效的“机器遗忘”成为了一个紧迫的问题。

二、研究动机

作者发现,直接将现有的 SISA 框架(主要针对图像和文本设计)应用到图数据上存在严重的问题。

1. 核心冲突:数据独立性 vs. 图结构依赖性
  • SISA的假设:图像或文本数据通常被视为独立同分布(I.I.D.)的。随机划分数据不会破坏数据的内在属性。

  • 图数据的特性:图中的节点不是独立的,它们通过边(Edges)相互连接,共享特征和标签信息。图的结构信息(Structure Information)对 GNN 的性能至关重要。

2. 现有方法的缺陷

如果直接对图数据使用 SISA(即随机划分节点到不同的碎片中):

  • 破坏结构:会切断大量的边,破坏图的拓扑结构。

  • 性能下降:导致子模型的预测准确率(Utility)大幅下降。

3. 潜在解决方案的挑战(社区发现的不平衡性)

为了保留图结构,一个直观的方法是使用社区发现(Community Detection)算法来划分图(将联系紧密的节点分在同一个碎片)。但是,真实世界的图通常具有幂律分布特性,导致社区大小极其不均匀(有的社区巨大,有的极小)。

  • 不平衡的后果:如果按照社区划分,会导致碎片大小极度不平衡。根据木桶效应,遗忘效率取决于最大的那个碎片的重训时间。如果被删除的节点恰好在最大的碎片中,重训时间依然很长,导致遗忘效率低下。

总结动机:

我们需要一种专门针对 GNN 的遗忘框架,它既能像社区发现那样保留图结构(保证模型准确性),又能像随机划分那样保证碎片大小均衡(保证遗忘效率)。

三、核心方法

作者提出的GraphEraser框架主要包含三个阶段:均衡图划分分片模型训练基于学习的聚合

阶段 1: 均衡图划分 (Balanced Graph Partition) ——这是论文最核心的创新点

作者提出了一个通用原则:将节点分配问题转化为排序与容量限制问题。设定每个碎片的容量上限 δ,并定义每个节点对于特定碎片的“偏好(Preference)”,优先满足高偏好的分配。

为了实现这一原则,作者提出了两种具体的算法:

  • 基础:基于标签传播算法(Label Propagation Algorithm, LPA)。

  • 改进逻辑:

    1. 初始化:随机将节点分配给 k个碎片。

    2. 偏好计算:计算每个节点 u 的邻居中有多少属于目标碎片 Cdst。邻居数越多,说明该节点越应该属于这个碎片(偏好越高)。

    3. 排序与分配:将所有 (节点, 目标碎片) 对按照邻居数量从高到低排序。

    4. 容量限制:按照排序顺序重新分配节点。关键点:如果目标碎片的当前节点数已经达到了上限 δ,则不允许该节点加入,必须寻找其他碎片或留在原处。

    5. 迭代:重复上述过程直到收敛或达到最大次数。

  • 适用性:适用于高度依赖图拓扑结构的模型(如 GCN)。

  • 基础:基于 K-Means 聚类算法。

  • 改进逻辑:

    1. 预处理:先用一个预训练的 GNN 提取所有节点的 Embedding(这样 Embedding 既包含特征信息也包含结构信息)。

    2. 初始化:随机选择 k 个质心。

    3. 偏好计算:计算节点 Embedding 到各质心的欧几里得距离。距离越近,偏好越高。

    4. 排序与分配:将 (节点, 质心) 对按距离从小到大排序。

    5. 容量限制:同样强制执行容量上限 δ。如果一个簇满了,距离再近的节点也进不去。

    6. 更新质心:根据新分配的节点更新质心位置。

  • 适用性:适用于对节点特征敏感的模型(如 GAT, GraphSAGE, GIN)。

阶段 2: 分片模型训练 (Shard Model Training)

在图被划分为 k个大小均衡的子图(碎片)后,作者在每个碎片上独立训练一个 GNN 子模型。

  • 遗忘操作:当收到针对节点u的遗忘请求时,GraphEraser 只需要定位到 u 所在的那个碎片,从该碎片中删除 u,然后重新训练该碎片的子模型。其他 k-1 个子模型保持不变。

  • 效率:由于碎片大小被强制均衡,任何一个碎片的重训时间都是可控且较短的。

阶段 3: 基于学习的聚合 (Learning-based Aggregation, LBAggr)

在推理阶段(预测未知节点的标签时),所有子模型都会给出一个预测结果。如何汇总这些结果?

  • 现有问题:传统的 SISA 使用“多数投票”(Majority Voting)。但这假设所有子模型同等重要。实际上,某些子模型可能因为包含了与目标节点更相关的结构信息,预测更准确。

  • LBAggr 方案:

    • 作者提出为每个子模型 i学习一个重要性权重αi

    • 优化目标:最小化加权聚合后的预测误差。公式如下:

      min⁡αEw∈G0[L(∑i=0mαi⋅Fi(Xw,Nw),y)]
    • 实现细节:从训练图中采样一小部分节点(例如 10%),用它们的真实标签来训练这个权重向量 a。

    • 最终预测:最终输出是各子模型输出后验概率的加权和。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 4:09:35

TypeScript开发基础(2)——基础数据类型

TypeScript基础数据类型有:number、string、boolean、bigint、symbol、any、null、undefined、void和never。 1.number类型 number 类型用于表示整数和浮点数。与 JavaScript 中的 number 类型类似,TypeScript 中的 number 可以表示任何数值&#xff0c…

作者头像 李华
网站建设 2026/7/3 19:16:48

25年最后一期班!2507期GIS开发特训营将于12月22日正式开班!

特训营大致分为6个阶段,每个阶段学完以后会以项目实战来检测学习成果,下面是每个阶段的学习内容和项目成果展示。第一阶段Web基础入门所学内容重点:HTML、CSSHTML基础要点:基本结构与标签、文本内容标签、图文与链接、列表与表格、…

作者头像 李华
网站建设 2026/7/5 3:35:01

Java字节流:数据传输的底层万能通道

Java字节流是IO体系中处理数据的“基石”,以8位byte为最小传输单位,能无差别读写所有类型数据(文本、图片、视频等),是程序与磁盘、网络等外部设备交互的底层桥梁。无论是文件存储、网络通信还是二进制数据处理&#x…

作者头像 李华
网站建设 2026/7/1 21:33:30

基因研究到药物研发,亚马逊云科技生成式AI如何加速癌症终结?

亚马逊云科技技术通过加速基因分析、改进早期检测、加速药物研发以及扩大医疗服务覆盖范围,为全球医疗服务提供者对抗癌症提供了支持。每年2月4日的世界癌症日提醒着我们,全球数以百万计的人受到了癌症的影响。在亚马逊云科技,我们正与研究人…

作者头像 李华
网站建设 2026/7/4 17:36:49

vue基于Spring Boot的心理咨询预约管理系统应用和研究_32h35596

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/7/2 3:04:26

亚马逊云科技如何为生命科学行业提供更强大的AI支持?

随着DeepSeek-R1推理模型的广泛应用,其强大的推理能力逐渐显现。与人类的思维方式类似,大语言模型分为“慢思考”和“快思考”两种模式。慢思考适用于复杂的多步推理任务,如撰写文章、制定研究计划等;而快思考则用于一步完成的简单…

作者头像 李华