torch_geometric(pyg)的介绍和简单使用

2023年6月17日上午5:29 • 人工智能 • 阅读 45

最近做毕业设计，需要用到图神经网络（以下简称GNN）。由于刚入门GNN，不想看大段的公式和相关论文（然而事实证明该看的永远逃不了），所以怎么办？百度上找呗！因为自己平时用pytorch比较多，所以找到了基于pytorch的图神经网络库，pytorch_geometric（以下简称pyg）。在用这个库的过程中，由于这个库”约定大于配置”的一些特性，也遇到了许多坑，而中文资料中，大多都是直接翻译文档，对一些细节没有做解释。因此将整个过程记录下来，供大家未来参考。

考虑到有许多同学和我最开始一样，就是想知道GNN是干什么的，大致原理是什么，因此这一章将简单介绍GNN

GNN是干什么的

相信大家都知道”图”是什么东西，一堆的节点（每个节点都有各自的特征），中间用箭头连起来。那么我们就很自然地想，这些相连的节点，可能信息上比较相关，可以互补，那我们能不能对这些相关的节点做一定的特征聚合操作呢？比如求和（这就是GIN），取平均（这就是大家常说的GCN），加权求和（这就是GAN）？做特征聚合时，可以只对一阶相邻（也就是直接相邻）节点做聚合，也可以对二阶相邻（最多可以通过一个中间节点间接相连）节点做聚合，由此衍生出各种花里胡哨的GNN……

所以我们说，GNN的核心操作是节点的特征聚合，具体怎么聚合，各个GNN有自己的花样。但是这些花样一定都是依据邻接关系得到的。毕竟脱离了图结构，GNN也没有存在的意义了，对吧？
X l + 1 = a g g r e g a t e ( X l , A ) A 表示邻接矩阵， X l 表示第 l 层的输出 X^{l+1}=aggregate(X^l,A)\ A表示邻接矩阵，X^l表示第l层的输出X l +1 =a g g r e g a t e (X l ,A )A 表示邻接矩阵，X l 表示第l 层的输出
看到这个，我们可以联想一下CNN，一个3×3的卷积核，实际上就是对8邻域做了加权和，对吧？如果把二维图像看成是一张8邻域连通的图，那实际上就是GNN了。

除了聚合特征之外，GNN们通常还带有一个单节点的特征变换运算，这个运算可以是单纯的线性变换，可以带有非线性激活函数等，可以认为是对单节点的特征做了增强。所以GNN的大致运算过程可以写为
X l + 1 = a g g r e g a t e ( f ( X l ) , A ) X l + 1 = f ( a g g r e g a t e ( X l , A ) ) X^{l+1}=aggregate(f(X^l),A)\ X^{l+1}=f(aggregate(X^l,A))X l +1 =a g g r e g a t e (f (X l ),A )X l +1 =f (a g g r e g a t e (X l ,A ))
这两种写法并不会影响输入输出的维度，重要的是明白有一次特征聚合，有一次特征增强即可。

pyg的功能比较强大，包括一些utils包下的图级别的工具函数，nn包下常见的GNN层，data包下封装好的图特征对象，loader包下封装好的图batch的loader，甚至还有端到端的GNN模型。自己搭GNN，主要会用到Data、DataLoader、nn、utils等相关工具。因此下面将从搭建一个最简单的GNN，并完成一次输入输出运算为主线，介绍这些工具的用法，以及一些暗箱约定（或者说，坑）

那么，想要使用三方库完成一次GNN运算，我们就必须了解以下的一些内容

输入数据是什么格式？尤其矩阵的维度是什么样的？
DataLoader对数据进行了怎样的变换，模型又该如何处理一个mini-batch？
内置GNN层的输入输出又是什么？可以直接把mini-batch给它吗？

接下来从探究以上问题出发，我们力求把pyg的用法讲明白

输入数据的格式

我们知道GNN的输入除了各顶点的特征之外，还有邻接矩阵，甚至还会有边的特征。pyg内置了Data对象，用于封装GNN的输入。Data对象中最常使用的几个属性包括以下三个。如果实际科研工作中需要使用更复杂的特征，可以回到上面找源教程。

data.x: 节点特征矩阵，维度是 [num_nodes, num_node_features]
data.edge_index: 图连接关系，也就是之前所说的邻接矩阵。只不过这里采用了稀疏格式的输入，维度是 [2, num_edges] 类型是 torch.long。也就是只存储每条边的出发点和终止点，而不是真正的邻接矩阵（这样的矩阵在顶点多边少的时候，非常占内存）。
data.y: 模型的期望输出。如果是完成节点级别任务的GNN，维度一般为 [num_nodes, *] ；如果是完成图级别任务的GNN，维度一般为 [1, *]

DataSet对象通常被我们用于原始数据读取和加工，将数据转换成DataLoader所能接受的输入。

说的现实点，主要就是把我们的数据源转换成一系列的Data对象。这个对象本身也是pyg封装好的，需要我们削足适履，把我们的转换逻辑填进去。以下直接摘自官方教程

class MyOwnDataset(InMemoryDataset):
    def __init__(self, root, transform=None, pre_transform=None):
        super().__init__(root, transform, pre_transform)

        self.data, self.slices = torch.load(self.processed_paths[0])

    @property
    def raw_file_names(self):
        return ['some_file_1', 'some_file_2', ...]

    @property
    def processed_file_names(self):
        return ['data.pt']

    def download(self):
        download_url(url, self.raw_dir)

    def process(self):

        data_list = [...]

        data, slices = self.collate(data_list)
        torch.save((data, slices), self.processed_paths[0])

DataLoader对象

玩深度学习的同学们都知道，训练模型一般要把多个数据打包成一个mini-batch，再丢给模型训练（原因我就不解释了）。DataLoader就是完成这个工作的。如果你恰好用过pytorch，你肯定也知道pytorch默认的DataLoader会把 batch_size个样本打包成 [batch_size, d1, d2, ..., dn]维度的输入，其中 [d1, d2, ..., dn]是样本本来的特征维度。

而pyg的DataLoader，会把数据打包成 [batch_size*num_nodes, num_node_features]的维度（也就是 batch_size不会单独成一维）。说实话，这一点非常坑（当然，从性能的角度，也可以说”妙”）。pyg官方的解释是”为了增加并行度”，那么，这一步操作是怎么增加并行度的？

稍加思考就可以明白。之前我们就说过，GNN最重要的操作之一，就是进行特征聚合。那进行特征聚合的代码怎么写？我们以求均值为例，最暴力的，当然是对着邻接矩阵，一个一个把邻居的特征加起来再取平均了
X i l + 1 = ( ∑ j a i j x i j ) / n X i = X [ i , : ] x i j = X [ i , j ] X^{l+1}i = (\sum_j a{ij}x_{ij})/n\ X_i = X[i,:]\ x_{ij}=X[i,j]X i l +1 =(j ∑a i j x i j )/n X i =X [i ,:]x i j =X [i ,j ]
当然，大家都知道拿循环来算加权和，效率非常低，因此应该用矩阵的形式来表示这一运算。假设我们已经算出了各个节点加权和的系数，形成一个系数矩阵，那上面的循环直接就可以用一个矩阵乘法表示了
X l + 1 = A ⋅ X l A ∈ [ n u m _ n o d e s , n u m _ n o d e s ] X ∈ [ n u m _ n o d e s , n u m _ n o d e _ f e a t u r e s ] X^{l+1}=A\cdot X^l\ A\in [num_nodes,num_nodes]\ X\in [num_nodes,num_node_features]X l +1 =A ⋅X l A ∈[n u m _n o d e s ,n u m _n o d e s ]X ∈[n u m _n o d e s ,n u m _n o d e _f e a t u r e s ]
可以想象，A乘在左边，就是对X做了行变换，也就是对X的每一行进行了加权和。

图神经网络的计算效率是比较低的，多张图之间难以进行并行化。假如 num_nodes不是很大，那进行一次上述的运算，也不会有太大的加速。因此pyg的DadaLoader将数据打包成了 [batch_size*num_nodes, num_node_features]维度，相当于大大提升了参与一次图运算的顶点数，因此可以充分利用向量运算的优势。

mini-batch内打包了节点特征、样本标签、连接关系、batch信息等内容

我们现在以最简单的两个图为例，说明打包后的数据长什么样

图1：三个顶点[0, 1, 2]，三个顶点两两双向连接，标签是节点维度的
图2：两个顶点[0,1]，两个顶点两两双向连接，标签是节点维度的

接下来，特征、标签都正常拼接；但是节点连接关系会进行一定的运算

data.x: 将两个图的节点特征直接拼接成 [5, num_node_features]的矩阵
data.y: 将两个图的节点标签直接拼接成 [5, *]的矩阵
data.edge_index: 将两个图混合成一张大图，形成 [2, 10]的矩阵。得到的邻接矩阵大概是 [[0,1],[1,0],[0,2],[2,0],[1,2],[2,1],[3,4],[4,3]]。这里为了看着方便，我把稀疏邻接矩阵转置了一下，实际上它的维度是 [2, num_edges]

欸，哪来的节点3和4呢？这就是这一并行化算法巧妙的地方，它将多个图融合成一张大图——其实图的编号没有太大的实际意义，它只是表达哪几个节点需要进行信息交换，需要把X的哪几行进行交换罢了。因此整个运算结果是非常正确的。

因此，我们再回头看一眼，Data对象中，各个元素的维度——知道为什么 num_nodes一定作为第一维了吗？想要最大限度地利用pyg库带来的遍历，就必须削足适履，迎合它的编码方式。在下一篇文章中，我将讲述如何定制DataLoader从而增加一些灵活性。

除了以上所述的那些内容，DataLoader还会打包一个batch信息。这一信息主要是为了从batch中再区分出各个图所用，在进行一些图级别的全局运算，比如softmax，比如global_average，比如global_max，我们肯定希望是在一个图样本中进行（不然在这张用于运算的大图上进行全局计算，有什么实际意义吗）

接下来我们搭一个最简单的两层GCN网络

import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv

class GCN(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = GCNConv(dataset.num_node_features, 16)
        self.conv2 = GCNConv(16, dataset.num_classes)

    def forward(self, data):
        x, edge_index = data.x, data.edge_index

        x = self.conv1(x, edge_index)
        x = F.relu(x)
        x = F.dropout(x, training=self.training)
        x = self.conv2(x, edge_index)

        return F.log_softmax(x, dim=1)

接下来是训练过程

from torch_geometric.datasets import Planetoid

dataset = Planetoid(root='/tmp/Cora', name='Cora')
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = GCN().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)

model.train()
for epoch in range(200):
    optimizer.zero_grad()
    out = model(data)
    loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
    loss.backward()
    optimizer.step()

最后是测试过程

model.eval()
pred = model(data).argmax(dim=1)
correct = (pred[data.test_mask] == data.y[data.test_mask]).sum()
acc = int(correct) / int(data.test_mask.sum())
print(f'Accuracy: {acc:.4f}')

好吧，这一章很水，毕竟这只是一个最简单的GNN例子，pyg也内置了很多的GNN模型供大家调用。需要注意的是，在刚刚的例程中，其实pyg内置GNN层的输入，并不是data，而是分立的data.x和data.edge_index，很多其它GNN层也是如此。这是因为通常大家先会用基本的GNN层搭建一些小模块，这些模块内可能带着卷积，可能带着池化，而对于卷积层来说，它并不需要知道batch信息。

这一篇文章基本在翻译教程的过程中写完了，加上了自己在构建DataSet对象和DataLoader对象中踩的坑。但是这不是全部，后续，我将从一个交通领域的T-GCN模型出发，讲述如何使用pyg库复现这一时空图神经网络模型。

Original: https://blog.csdn.net/qq_33309098/article/details/122305551
Author: 卡拉叽里呱啦
Title: torch_geometric(pyg)的介绍和简单使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628858/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【轻量化模型】mobilenet v2

MobileNet v2 onnx 导出参考：torchvision onnx 模型导出_星魂非梦的博客-CSDN博客 1. 模型描述 MobileNet v2 来自论文：Mobi…

人工智能 2023年7月14日
0063
pytorch进阶—pytorch生态

目录 1、torchvision 2、Transforms学习 2、1导入图像 2.2 沿中心切割图像 2.3 图像亮度等改变 2.4 RGB三通道转换为灰度图像 2.5 等比缩放…

人工智能 2023年6月21日
0066
Anaconda+tensorflow+win10安装包和教程(2021年12月)

安装包：Anaconda+tensorflow+win10安装包和教程.rar-机器学习文档类资源-CSDN文库安装Anaconda3 下一步下一步即可红色路径记得选上使用W…

人工智能 2023年5月25日
0076
模式识别和机器学习实战- 朴素贝叶斯分类 – Python实现 – 实战之文档分类和过滤垃圾邮件

文章目录前言一、贝叶斯决策论概述二、实战之文档分类三、过滤垃圾邮件三、实验结果与分析总代码前言实验目的和要求：使用概率分布进行分类学习朴素贝叶斯分类器进行文本分…

人工智能 2023年7月1日
0058
【机器学习】几种常见的无监督学习算法

1. PCA 降维是指在保留数据特征的前提下，以少量的变量表示有许多变量的数据，这有助于降低多变量数据分析的复杂度。减少数据变量的方法有两种：一种是只选择重要的变量，不使用其余变量…

人工智能 2023年6月15日
0052
深度理解微服务

🥲 🥸 🤌 🫀 🫁 🥷 🐻‍❄️🦤 🪶 🦭 🪲 🪳 🪰 🪱 🪴 🫐 🫒 🫑 🫓 🫔 🫕 🦤 🪶 🦭 🪲 🪳 🪰 🪱 🐻‍❄️ 🫐 🫒 🫑 🫓 🫔 🫕♔博主昵称：�欢快↑㎡🕍博客主页…

人工智能 2023年7月31日
0041
Google Earth Engine（GEE）——NDVI时序线性插值补缺和导出视频结果案例分析（北京奥森公园为例）

本案例是一个综合案例：在NDVI时间序列上应用脚本使用OEEL库，在图像集上应用Savitzky-Golay滤波器。需要一个有规律的时间序列，没有任何遮挡的像素。所以这个脚本将…

人工智能 2023年6月20日
0069
每日一练Day04：寻找单身狗

寻找单身狗一、一个单身狗二、两个单身狗寻找单身狗实际上是力扣上的《只出现一次的数字》具体描述如下：一、一个单身狗本题的特点是：非空数组、其余数字出现两次、寻找只出现一次…

人工智能 2023年6月28日
0051
一元线性回归（自写梯度下降法与scikit-learn）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0075
已解决（Python爬虫requests报错）requests.exceptions.ProxyError: HTTPSConnectionPool

成功解决（Python爬虫requests报错）：requests.exceptions.ProxyError: HTTPSConnectionPool 文章目录报错信息报错翻…

人工智能 2023年7月6日
0067
Python数据处理库pandas中的DataFrame数据结构简介

有很多方法可以创建DataFrame 数据，比如通过字典： In [1]: import pandas as pd In [8]: data = {‘name’: [‘&…

人工智能 2023年7月7日
0065
目标检测中的mAP

要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2,…

人工智能 2023年5月26日
0078
Python3.8安装cartopy报错ImportError: DLL load failed while importing trace: 找不到指定的模块。

最近安装cartopy走了很多弯路，记录一下 win7,64位，Python版本3.8.7 1.报错主要还是因为cartopy和依赖包的问题，于是卸载了cartopy以及依赖包 p…

人工智能 2023年7月5日
0056
【计算机视觉】新冠肺炎COVID-19 CT影片阳性检测，感染区域分割，肺部分割，智慧医疗实践，医疗影像处理示例

引言新型冠状病毒肺炎（Corona Virus Disease 2019，COVID-19），简称”新冠肺炎”，世界卫生组织命名为”2019冠…

人工智能 2023年6月22日
0055
GCN（一）数据集介绍

1.1 数据集概述 Cora数据集由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。在数据集中，论文分为以下七类之一: 基于案例遗传算法神经网络概率方法强化学习规…

人工智能 2023年5月31日
0074
为什么深度学习要使用GPU？

1.CPU和GPU的概念 CPU又称中央处理器，作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。可以形象地理解为有25%的ALU(运算单元)、有25%的Con…

人工智能 2023年5月28日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

torch_geometric(pyg)的介绍和简单使用

GNN是干什么的

输入数据的格式

DataLoader对象

大家都在看