PaddlePaddle图神经网络GNN入门：Node Classification任务-平芜编程栈

PaddlePaddle图神经网络GNN入门：Node Classification任务

在社交网络中，如何自动识别用户的职业或兴趣？在学术文献库中，能否根据论文间的引用关系预测其研究领域？这类问题本质上都归结为图上的节点分类任务——而图神经网络（GNN）正是解决这一类问题的利器。

近年来，随着非欧几里得数据建模需求的增长，GNN 已成为深度学习的重要分支。相比传统方法将图结构“拍平”处理的做法，GNN 能够保留并利用节点之间的复杂连接关系，实现更精准的表示学习。而在众多深度学习框架中，PaddlePaddle凭借其对中文生态的深度支持、高效的训练部署能力以及专为图学习设计的子项目PGL（Paddle Graph Learning），正逐渐成为国内开发者构建 GNN 应用的首选平台。

本文不走寻常路，不会堆砌术语讲完理论就收工。我们将以一个完整的节点分类任务为主线，带你从零开始搭建模型，理解 GNN 的核心机制，并掌握如何在 PaddlePaddle 中高效实现它。你会看到代码是如何一步步跑起来的，也会了解背后的设计考量和工程实践建议。

图神经网络为何能“看懂”关系？

我们先来思考一个问题：为什么普通神经网络难以处理图数据？

假设你有一组用户数据，每个用户有年龄、职业等特征。如果只做分类，一个简单的 MLP 就够了。但如果你还知道这些用户之间谁关注了谁、谁和谁是好友呢？这些关系信息蕴含着丰富的上下文信号——比如，“被多位医生关注的人很可能也是医疗从业者”。这种基于邻居的推理，正是 GNN 的强项。

GNN 的核心思想叫做消息传递（Message Passing）。简单来说，就是每个节点不断从它的邻居那里收集信息，然后更新自己的“认知”。这个过程可以重复多轮，使得每个节点最终不仅能感知直接邻居，还能间接感知整个网络的结构。

以最经典的 GCN（Graph Convolutional Network）为例，它的更新公式如下：

$$
H^{(l+1)} = \sigma\left(\tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2} H^{(l)} W^{(l)}\right)
$$

别被公式吓到，其实逻辑很直观：
- $ \tilde{A} = A + I $ 是加了自环的邻接矩阵，保证节点自身信息也被保留；
- 前后乘上度矩阵的逆平方根，是为了对聚合结果做归一化，防止某些高连接度节点主导输出；
- $ H^{(l)} $ 是当前层的节点表示；
- $ W^{(l)} $ 是可学习的权重矩阵；
- $ \sigma $ 是激活函数，如 ReLU。

经过 K 层传播后，每个节点就能“看到”K 跳之外的信息。例如，在两层 GCN 中，一个节点的最终表示不仅来自自己，也融合了一阶和二阶邻居的特征。

这就像你在微信群里听八卦：第一轮你听到朋友说的事；第二轮你朋友的朋友又补充了一些背景——最终你掌握的信息远超最初那一条消息。

为什么选择 PaddlePaddle 做 GNN？

虽然 PyTorch Geometric（PyG）在学术界广受欢迎，但在工业落地场景下，PaddlePaddle 提供了更具吸引力的一站式体验。

首先，它是国产开源框架，对中文 NLP 场景有天然优化。无论是中文分词、文本编码，还是预训练模型（如 ERNIE），都能无缝接入图学习流程。其次，PaddlePaddle 内置了PGL（Paddle Graph Learning）库，专门用于构建和训练图神经网络，支持异构图、动态图、分布式训练等高级功能。

更重要的是，它的全流程工具链极为完整。你可以用paddle.jit.save导出静态图模型，再通过Paddle Inference或Paddle Serving部署为高性能服务，甚至可以在移动端使用Paddle Lite运行。对于企业级应用而言，这意味着从实验到上线的路径大大缩短。

下面这张对比表或许能说明问题：

维度	PaddlePaddle	其他主流框架（如 TensorFlow/PyTorch）
中文支持	⭐⭐⭐⭐⭐ 强大	⭐⭐ 一般
易用性	⭐⭐⭐⭐ 简洁 API + 可视化工具	⭐⭐⭐⭐ (PyTorch) / ⭐⭐⭐ (TF)
工业落地能力	⭐⭐⭐⭐⭐ 提供完整部署方案	⭐⭐⭐ (需额外集成 TensorRT/Seldon 等)
图神经网络支持	⭐⭐⭐⭐ 通过 PGL 库完善支持	⭐⭐⭐⭐ (PyG for PyTorch)
国产化适配	⭐⭐⭐⭐⭐ 支持国产芯片（如昆仑芯）	⭐⭐ 依赖国外生态

数据来源：官方文档 www.paddlepaddle.org.cn

尤其是最后一项——国产化适配，在当前环境下显得尤为关键。PaddlePaddle 对百度自研的昆仑芯等国产硬件有原生支持，这对于政企、金融等领域尤为重要。

动手实战：用 PaddlePaddle 实现 GCN 节点分类

现在让我们动手写一段真正的代码。目标是构建一个两层 GCN 模型，在一个小图上完成节点分类任务。

第一步：准备图数据

import pgl import paddle import paddle.nn as nn # 构造一个简单的图 num_nodes = 4 edges = [(0, 1), (1, 2), (2, 3), (3, 0)] # 边列表 features = paddle.randn([num_nodes, 16]) # 每个节点16维随机特征 # 创建图对象 graph = pgl.Graph(edges=edges, num_nodes=num_nodes, node_feat={'feat': features})

这里我们创建了一个包含 4 个节点的环形图，每个节点有 16 维特征。pgl.Graph是 PGL 提供的核心数据结构，它可以方便地存储节点特征、边信息以及进行批量操作。

第二步：定义 GCN 层

接下来我们实现一个基础的 GCN 卷积层：

class GCNLayer(nn.Layer): def __init__(self, input_size, output_size): super(GCNLayer, self).__init__() self.linear = nn.Linear(input_size, output_size) def forward(self, graph, feature): with graph.local_var(): # 防止修改原始图状态 # 计算归一化系数: D^(-1/2) norm = paddle.cast(graph.indegree(), dtype="float32") ** -0.5 norm = norm.reshape([-1, 1]) # 对输入特征做左归一化 feature = feature * norm # 设置节点特征用于消息传递 graph.node_feat["h"] = feature # 定义消息函数：将源节点特征发送出去 msg_func = lambda edge: edge.src["h"] # 定义聚合函数：对收到的消息求和 reduce_func = lambda node: node["msg"].sum(axis=1) # 执行消息传递 rst = graph.update_all(msg_func, reduce_func) # 对输出做右归一化 rst = rst * norm # 线性变换 + 激活（在模型中统一加） return self.linear(rst)

这段代码的关键在于update_all方法，它实现了标准的消息传递范式：
1. 每条边根据msg_func发送消息（这里是源节点的特征）；
2. 每个目标节点根据reduce_func聚合所有入边的消息（这里是求和）；
3. 最终得到新的节点表示。

注意前后两次乘以norm，就是为了实现对称归一化的拉普拉斯变换 $\tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2}$。

第三步：搭建完整模型并训练

class GCNModel(nn.Layer): def __init__(self, input_size, hidden_size, num_classes): super(GCNModel, self).__init__() self.gcn1 = GCNLayer(input_size, hidden_size) self.gcn2 = GCNLayer(hidden_size, num_classes) self.relu = nn.ReLU() def forward(self, graph, x): x = self.relu(self.gcn1(graph, x)) x = self.gcn2(graph, x) return x # 初始化模型与优化器 model = GCNModel(input_size=16, hidden_size=32, num_classes=2) optimizer = paddle.optimizer.Adam(learning_rate=0.01, parameters=model.parameters()) # 模拟训练过程（假设有标签的节点是前两个） for epoch in range(100): logits = model(graph, features) loss = nn.CrossEntropyLoss()(logits[:2], paddle.to_tensor([0, 1])) # 标签 [0, 1] loss.backward() optimizer.step() optimizer.clear_grad() if epoch % 20 == 0: print(f"Epoch {epoch}, Loss: {loss.item():.4f}")

运行结果类似：

Epoch 0, Loss: 0.6921 Epoch 20, Loss: 0.4123 Epoch 40, Loss: 0.1876 Epoch 60, Loss: 0.0734 Epoch 80, Loss: 0.0211

可以看到损失稳步下降，说明模型正在学会区分这两个类别。

实际项目中的关键考量

上面的例子虽然简单，但它已经涵盖了 GNN 开发的核心流程。当你面对真实世界的大规模图时，以下几个问题必须提前考虑：

如何应对大规模图？

当节点数达到百万甚至十亿级别时，全图训练会面临内存爆炸的问题。此时应采用图采样技术，例如：
-Neighbor Sampling：每轮只采样当前节点的一小部分邻居；
-ClusterGCN：先对图做聚类，每次训练一个子图块；
-GraphSAGE：通过固定邻居数量的方式生成归纳式嵌入。

PGL 提供了pgl.dataloader模块，支持高效的图采样 DataLoader，可与paddle.io.DataLoader无缝集成。

特征工程怎么做才有效？

尽管 GNN 强调端到端学习，但良好的初始特征仍然至关重要。常见做法包括：
- 对文本节点使用 BERT 或 ERNIE 编码；
- 对类别型属性做嵌入（Embedding）后再拼接；
- 使用 PageRank、中心性等图统计量作为辅助特征。

特别提醒：节点特征一定要做归一化！否则梯度容易不稳定。

选 GCN 还是 GAT？

不同模型适用于不同场景：
-GCN：结构清晰、计算高效，适合小图且连接规则明确的任务；
-GAT（Graph Attention Network）：引入注意力机制，允许模型自动学习邻居的重要性权重，更适合社交网络这类关系强度差异大的图；
-GraphSAGE：适用于动态图或需要泛化到新节点的场景。

你可以根据业务需求灵活替换卷积层，PGL 均提供了对应实现。