图神经网络实践之图节点分类（一）

2023年7月1日上午2:14 • 人工智能 • 阅读 93

本文主要以Deep Graph Library（DGL）为基础，利用图神经网络来进行图节点分类任务。本篇针对的图为同构图。

DGL是一个python包，用以在现有的深度学习框架上（包括Pytorch、MXNet和TensorFlow）来实现图神经网络系列模型。它提供了对消息传递的通用控制，通过自动批处理和高度调整的稀疏矩阵内核进行速度优化，以及多 GPU/CPU 训练以扩展到数亿个节点和边缘的图形。
DGL拥有丰富的文档及相关接口，而且文档有中文版本，十分容易学习和上手。
DGL的github链接：https://github.com/dmlc/dgl

2.1 数据集加载

本文使用的数据集为DGL中已经有的Cora数据集，该数据集为论文引用数据集，包含论文节点和论文之间的引用关系，通过论文本身的特征和引用关系来对论文进行分类，其共包括以下七类：

基于案例
遗传算法
神经网络
概率方法
强化学习
规则学习
理论

import dgl.data
from dgl.nn import GraphConv
import torch.nn as nn
from dgl.nn.pytorch.conv import SAGEConv
import torch
import torch.nn.functional as F

dataset = dgl.data.CoraGraphDataset()
print('Number of categories:', dataset.num_classes)
g = dataset[0]
print("结点信息",g.ndata)
print("边信息",g.edata)

通过上述代码，可以加载Cora数据集，并能够看到数据集的基本情况，数据集共包含2708个节点，10556条边。

2.2 图神经网络模块定义

简单的GCN构建：
以下代码构建了一个两层图卷积网络（GCN），每一层通过聚合邻居信息来计算新的节点表示。
如果想要构建多层 GCN，您可以简单地堆叠dgl.nn.GraphConv 模块，这些模块继承自torch.nn.Module.

class GCN(nn.Module):
    def __init__(self, in_feats, h_feats, num_classes):
        super(GCN, self).__init__()
        self.conv1 = GraphConv(in_feats, h_feats)
        self.conv2 = GraphConv(h_feats, num_classes)

    def forward(self, g, in_feat):
        h = self.conv1(g, in_feat)
        h = F.relu(h)
        h = self.conv2(g, h)
        return h

GraphSAGE构建：
GraphSAGE 是图神经网络中比较经典的模型，GraphSAGE 包含采样和聚合 (Sample and aggregate)，首先使用节点之间连接信息，对邻居进行采样，然后通过多层聚合函数不断地将相邻节点的信息融合在一起。本文参照DGL中的例子来实现的GraphSAGE，代码如下：

class GraphSAGE(nn.Module):
    def __init__(self,
                 in_feats,
                 n_hidden,
                 n_classes,
                 n_layers,
                 activation,
                 dropout,
                 aggregator_type):
        super(GraphSAGE, self).__init__()
        self.layers = nn.ModuleList()
        self.dropout = nn.Dropout(dropout)
        self.activation = activation

        self.layers.append(SAGEConv(in_feats, n_hidden, aggregator_type))

        for i in range(n_layers - 1):
            self.layers.append(SAGEConv(n_hidden, n_hidden, aggregator_type))

        self.layers.append(SAGEConv(n_hidden, n_classes, aggregator_type))

    def forward(self, graph, inputs):
        h = self.dropout(inputs)
        for l, layer in enumerate(self.layers):
            h = layer(graph, h)
            if l != len(self.layers) - 1:
                h = self.activation(h)
                h = self.dropout(h)
        return h

2.3 评价函数

def evaluate(model, graph, features, labels, nid):
    model.eval()
    with torch.no_grad():
        logits = model(graph, features)
        logits = logits[nid]
        labels = labels[nid]
        _, indices = torch.max(logits, dim=1)
        correct = torch.sum(indices == labels)
        return correct.item() * 1.0 / len(labels)

2.4 图神经网络的训练

全图(使用所有的节点和边的特征)上的训练只需要使用上面定义的模型进行前向传播计算，并通过在训练节点上比较预测和真实标签来计算损失，从而完成后向传播。
节点特征和标签存储在其图上，训练、验证和测试的分割也以布尔掩码的形式存储在图上。

features = g.ndata['feat']
labels = g.ndata['label']
train_mask = g.ndata['train_mask']
val_mask = g.ndata['val_mask']
test_mask = g.ndata['test_mask']
train_nid = train_mask.nonzero().squeeze()
val_nid = val_mask.nonzero().squeeze()
test_nid = test_mask.nonzero().squeeze()

def train(g, model):
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
    best_val_acc = 0
    best_test_acc = 0
    for e in range(100):

        logits = model(g, features)

        pred = logits.argmax(1)

        loss = F.cross_entropy(logits[train_mask], labels[train_mask])

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        acc = evaluate(model, g, features, labels, val_nid)

        print("Epoch {:05d}  | Loss {:.4f} | Accuracy {:.4f} | ".format(e, loss.item(), acc))

双层GNN训练：

model = GCN(g.ndata['feat'].shape[1], 16, dataset.num_classes)
train(g, model)
print()
acc = evaluate(model, g, features, labels, test_nid)
print("Test Accuracy {:.4f}".format(acc))

GraphSAGE训练：

modeSAGE = GraphSAGE(g.ndata['feat'].shape[1],
                      16,
                      dataset.num_classes,
                      2,
                      F.relu,
                      0.5,
                      "gcn")
train(g, modeSAGE)
acc = evaluate(modeSAGE, g, features, labels, test_nid)
print("Test Accuracy {:.4f}".format(acc))

运行上述代码即可得到分类的效果，一般来说GraphSAGE的效果会略好于双层的GCN，但差距并不太大。

本文主要在DGL包自带的同构图数据集上进行了一个简单的图节点分类的尝试，之后会尝试在其他数据集（异构图/知识图谱）上进行图节点分类的任务。

Original: https://blog.csdn.net/sjx674749057/article/details/123558509
Author: nrcc
Title: 图神经网络实践之图节点分类（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662506/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

最基础的分类算法-k近邻算法 kNN

01 kNN 基础 import numpy as np import matplotlib.pyplot as plt kNN 基础概念 k近邻算法，全称是 K Nearest …

人工智能 2023年7月1日
0034
相机标定-张正友棋盘格标定法

目录 1.针孔相机模型 2.相机成像过程 2.1 各个坐标系之间的转换 2.1.1 图像坐标系到像素坐标系 2.1.2 相机坐标系到图像坐标系 2.1.3世界坐标系到相机坐标系 2…

人工智能 2023年6月18日
00109
【人脸识别】基于facenet_pytorch实现人脸识别

该代码可以在Pycharm、Jupyter、Python等Python编译器中运行，本文我使用的是Pycharm。一、安装（一）安装pytorch（cpu）首先在Pychar…

人工智能 2023年5月26日
0059
STM32外部Flash移植FATFS笔记

FatFs是面向小型嵌入式系统的一种通用的FAT 文件系统。它完全是由AISI C 语言编写并且完全独立于底层的I/O 介质。因此它可以很容易地不加修改地移植到其他的处理器当中，如…

人工智能 2023年6月28日
0083
pandas期末复习

Pandas（Python Data Analysis Library）是基于NumPy的数据分析模块，它提供了大量标准数据模型和高效操作大型数据集所需的工具，可以说Pandas是…

人工智能 2023年7月18日
0058
Python的pandas的dataframe的drop方法，删除行、列

版权声明：转载请注明作者（独孤尚良dugushangliang）出处：https://blog.csdn.net/dugushangliang/article/details/11…

人工智能 2023年7月6日
0074
绘图

import numpy as np import pandas as pd import matplotlib.pyplot as plt pandas和seaborn绘图折线…

人工智能 2023年7月8日
0054
【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】获取代码方式2：付费专…

人工智能 2023年7月1日
0087
Pandas数据载入与预处理期末复习

对于数据分析而言，数据大部分来源于外部数据，如常用的CSV文件、Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式，处理完成后再存储到相应的外部…

人工智能 2023年7月8日
00107
模型评价 – 分类模型的常用评价指标

习题答案习题一答案一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档 D) 可独立构成计算机系统 2. 软件工程三要素是(…

人工智能 2023年7月2日
0076
OpenGL之纹理过滤（Texture Filtering）、MipMap方法、纹理坐标

1.1 纹理过滤像素、片元都是具有面积的，一个像素可能对应物体上的一小块区域，而物体上这个小区域对应于纹理图像上的一个小区域，因此一个像素的颜色可能来自于纹理中的一小个不规则区域，…

人工智能 2023年6月26日
0065
conda安装torch+torch_geometric

@conda安装torch+torch_geometric 一、基础命令查看当前存在哪些虚拟环境 conda env list #查&#x770B…

人工智能 2023年7月20日
0067
英文文献阅读器Paper Digest使用指南

英文文献阅读器Paper Digest使用指南英文文献阅读器Paper Digest使用指南 * 能干什么如何使用优缺点英文文献阅读器Paper Digest使用指南能干…

人工智能 2023年6月1日
00253
指纹图谱相似度评价软件_基于指纹图谱结合多指标测定的玄参药材等级质量研究…

摘要：目的建立玄参药材的HPLC指纹图谱，并同时进行多成分含量测定，为玄参药材等级质量标准的制定提供方法和依据。方法采用HPLC-DAD法，Elipse XDB-C18(25…

人工智能 2023年6月1日
0057
pytorch使用detectron2模型库模型训练自己的数据

一应用场景在x86 （Ubuntu18.04）cpu，在pytorch1.10框架下，使用detectron2模型库模型训练自己的数据集，并进行目标检测推理。二环境配置我…

人工智能 2023年7月21日
0039
pytorch 实现逻辑回归

目录 1. 导入库 2. 定义数据集 2.1 生成数据 2.2 设置label 3. 搭建网络+优化器 4. 训练 5. 绘制决策边界 6. 代码导入库机器学习的任务分为两大类…

人工智能 2023年6月15日
0090

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

图神经网络实践之图节点分类（一）

2.1 数据集加载

2.2 图神经网络模块定义

2.3 评价函数

2.4 图神经网络的训练

大家都在看