GCN、GAT实现Cora数据集节点分类（pytorch-geometric框架）

2023年7月2日上午1:34 • 人工智能 • 阅读 129

Cora数据集

介绍

下载地址：https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz

Cora数据集由深度学习论文组成，论文表示为节点，论文之间的引用关系表示为节点之间的边，每篇论文引用或被至少一篇其他论文引用，不存在孤立节点。

论文被分为以下七类之一:

Case_Based
Genetic_Algorithms
Neural_Networks
Probabilistic_Methods
Reinforcement_Learning
Rule_Learning
Theory

数据集组成

cora.cites  --&#x8BBA;&#x6587;&#x4E4B;&#x95F4;&#x7684;&#x5F15;&#x7528;&#x60C5;&#x51B5;&#xFF08;&#x8FB9;&#xFF09;
cora.content  --&#x8BBA;&#x6587;&#x5185;&#x5BB9;&#xFF08;&#x8282;&#x70B9;&#x7279;&#x5F81;+&#x6807;&#x7B7E;&#xFF09;
    &#x8282;&#x70B9;&#x7279;&#x5F81;&#x4F7F;&#x7528;&#x7B5B;&#x9009;&#x540E;&#x5355;&#x8BCD;&#x7684;one-hot&#x7F16;&#x7801;&#xFF0C;&#x82E5;&#x67D0;&#x8BCD;&#x51FA;&#x73B0;&#x5728;&#x8BE5;&#x8BBA;&#x6587;&#x4E2D;&#xFF0C;&#x5BF9;&#x5E94;&#x4F4D;&#x7F6E;&#x7F6E;1

读取数据集

path = "data/cora/"
cites = path + "cora.cites"
content = path + "cora.content"

index_dict = dict()

label_to_index = dict()

features = []
labels = []
edge_index = []

with open(content,"r") as f:
    nodes = f.readlines()
    for node in nodes:
        node_info = node.split()
        index_dict[int(node_info[0])] = len(index_dict)
        features.append([int(i) for i in node_info[1:-1]])

        label_str = node_info[-1]
        if(label_str not in label_to_index.keys()):
            label_to_index[label_str] = len(label_to_index)
        labels.append(label_to_index[label_str])

with open(cites,"r") as f:
    edges = f.readlines()
    for edge in edges:
        start, end = edge.split()

        edge_index.append([index_dict[int(start)],index_dict[int(end)]])
        edge_index.append([index_dict[int(end)],index_dict[int(start)]])

labels = torch.LongTensor(labels)
features = torch.FloatTensor(features)

edge_index =  torch.LongTensor(edge_index)

两层GCN的网络结构

class GCNNet(torch.nn.Module):
    def __init__(self, num_feature, num_label):
        super(GCNNet,self).__init__()
        self.GCN1 = GCNConv(num_feature, 16)
        self.GCN2 = GCNConv(16, num_label)
        self.dropout = torch.nn.Dropout(p=0.5)

    def forward(self, data):
        x, edge_index = data.x, data.edge_index

        x = self.GCN1(x, edge_index)
        x = F.relu(x)
        x = self.dropout(x)
        x = self.GCN2(x, edge_index)

        return F.log_softmax(x, dim=1)

两层GAT的网络结构

class GATNet(torch.nn.Module):
    def __init__(self, num_feature, num_label):
        super(GATNet,self).__init__()
        self.GAT1 = GATConv(num_feature, 8, heads = 8, concat = True, dropout = 0.6)
        self.GAT2 = GATConv(8*8, num_label, dropout = 0.6)

    def forward(self, data):
        x, edge_index = data.x, data.edge_index

        x = self.GAT1(x, edge_index)
        x = F.relu(x)
        x = self.GAT2(x, edge_index)

        return F.log_softmax(x, dim=1)

固定随机种子

seed = 1234
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
np.random.seed(seed)

torch.manual_seed(seed)
torch.backends.cudnn.benchmark = False
torch.backends.cudnn.deterministic = True

划分训练/验证/测试集，实例化Data对象用于存储

Data对象的使用方法在源码仓库里也有，地址放在文末链接。

mask = torch.randperm(len(index_dict))
train_mask = mask[:140]
val_mask = mask[140:640]
test_mask = mask[1708:2708]

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

cora = Data(x = features, edge_index = edge_index.t().contiguous(), y = labels).to(device)

训练网络

model = GATNet(features.shape[1], len(label_to_index)).to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)

for epoch in range(200):
    optimizer.zero_grad()
    out = model(cora)
    loss = F.nll_loss(out[train_mask], cora.y[train_mask])
    print('epoch: %d loss: %.4f' %(epoch, loss))
    loss.backward()
    optimizer.step()

    if((epoch + 1)% 10 == 0):
        model.eval()
        _, pred = model(cora).max(dim=1)
        correct = int(pred[test_mask].eq(cora.y[test_mask]).sum().item())
        acc = correct / len(test_mask)
        print('Accuracy: {:.4f}'.format(acc))
        model.train()

epoch: 0 loss: 1.9512
epoch: 1 loss: 1.7456
epoch: 2 loss: 1.5565
epoch: 3 loss: 1.3312
epoch: 4 loss: 1.1655
epoch: 5 loss: 0.9590
epoch: 6 loss: 0.8127
epoch: 7 loss: 0.7368
epoch: 8 loss: 0.6223
epoch: 9 loss: 0.6382
Accuracy: 0.8180
...

epoch: 190 loss: 0.4079
epoch: 191 loss: 0.2836
epoch: 192 loss: 0.3000
epoch: 193 loss: 0.2390
epoch: 194 loss: 0.2207
epoch: 195 loss: 0.2316
epoch: 196 loss: 0.2994
epoch: 197 loss: 0.2480
epoch: 198 loss: 0.2349
epoch: 199 loss: 0.2657
Accuracy: 0.8290

t-SNE做图观察特征空间

ts = TSNE(n_components=2)
ts.fit_transform(out[test_mask].to('cpu').detach().numpy())

x = ts.embedding_
y = cora.y[test_mask].to('cpu').detach().numpy()

xi = []
for i in range(7):
    xi.append(x[np.where(y==i)])

colors = ['mediumblue','green','red','yellow','cyan','mediumvioletred','mediumspringgreen']
plt.figure(figsize=(8, 6))
for i in range(7):
    plt.scatter(xi[i][:,0],xi[i][:,1],s=30,color=colors[i],marker='+',alpha=1)

GCN、GAT实现Cora数据集节点分类（pytorch-geometric框架）

参考文献

GCN论文
 GAT论文
 pytorch-geometric官方文档

源码地址

https://gitee.com/swy9834/gnnlab
作者用以存放基于pytorch-geometric的GNN学习代码，随缘更新。

Original: https://blog.csdn.net/qq_20805805/article/details/117720945
Author: 啊喔呃鸭
Title: GCN、GAT实现Cora数据集节点分类（pytorch-geometric框架）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664455/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

er图转换成关系模型的例题_预训练语言模型关系图+必读论文列表，清华荣誉出品…

机器之心整理项目作者：王晓智、张正彦参与：张倩、杜伟预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet，各种预训练模型层出不…

人工智能 2023年6月10日
0065
FPN结构详解

Feature Pyramid Networks FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能…

人工智能 2023年7月13日
00100
Visdom安装&解决遇到的坑

在Pytorch虚拟环境中安装Visdom 第一步：激活Pytorch虚拟环境 activate pytorch 第二步：下载Visdom安装包在github中下载visdom包…

人工智能 2023年7月24日
0072
ROS教程（一）：ROS安装教程（详细图文）

ros教程：ros详细安装步骤（添加源、下载ROS及环境配置）文章目录前言一、版本选择二、开始安装 * 2.1 软件中心配置 2.2 添加源（注） 2.3 安装 2.4 配…

人工智能 2023年6月16日
00160
10大理由告诉你为什么要学习Python

Python 是当今非常流行的编程语言，在互联网上经常可以看到他的身影。它应用非常广泛，例如编程、Web 开发、机器学习和数据科学等。在最新的tiobe排行中 Python 甚至超…

人工智能 2023年7月16日
0064
Windows环境下Neo4j图数据库的离线导入导出、APOC函数数据导出实操以及遇到Not a valid Neo4j archive 解决办法

Windows环境下Neo4j图数据库的离线导入导出、APOC函数数据导出实操以及遇到Not a valid Neo4j archive 解决办法一、Neo4j基本操作 * 1….

人工智能 2023年6月1日
0078
数据的清洗

数据分析师80%的时间都花在数据清洗上！好的数据质量，应该满足”完全合一” • 完整性：数据是否存在空值，字段是否完善，是否有漏掉 • 全面性：观察某一列…

人工智能 2023年6月11日
00114
项目实战–用户消费数据分析

文章目录引入包一、数据预处理二、按月对数据分析三、用户个体消费数据分析四、用户消费行为分析五、用户的生命周期引入包本项目所用数据为【密码：pfj6】:CDNOW_m…

人工智能 2023年6月11日
00110
【风控系列】2. 如何构建一个有效的风控系统

文章目录 0. 背景 1. 第一代系统 * 1.1 目标 1.2 框架 1.3 功能说明 2. 第二代系统 * 2.1 目标 2.2 框架 2.3 功能说明 3. 第三代系统 * …

人工智能 2023年5月28日
00102
基于CNN卷积神经网络实现mnist手写数据集识别

目录 * – 一、CNN理论 – + 1. CNN结构 + 2. 卷积层 + * 2.1 卷积运算 * 2.2 填充 * 2.3 步幅 * 2.4 三维数据…

人工智能 2023年7月13日
0077
09 Softmax 回归 + 损失函数 + 图片分类数据集-P4

3.6. softmax回归的从零开始实现 1.预备库、参数 #从里开始softmax从零开始的实现（所有深度学习模型的基础） from IPython import displa…

人工智能 2023年7月2日
00101
python 智能语音_python实现人工智能语音助手

一.环境搭建： 1.安装pycharm和Anaconda(安装过程几乎点下一步即可，实在怕出问题去问度娘) 2.使用Anaconda里的包模块：二.百度语音(STT)和图灵机器人…

人工智能 2023年5月27日
0086
关于统计学的相关函数

python数据分析基础技术篇 python数据分析的概论 1、numpy * 1、判断数据结构的类型 2、常用数组，生成数据（满足某一分布） 3、对数组进行操作 4、线性方程组…

人工智能 2023年7月17日
0067
Halcon深度学习介绍(二)—分类

Halcon深度学习介绍–分类 **1、说明前边讲述了几个具体的类别，但是并没有讲具体的操作，这里就具体将一下。其实在halcon中有非常详细的案例，无论是分类，还是目标检测，一…

人工智能 2023年6月30日
0067
《动手学数据分析》第一章1.6

第一章：数据载入及初步观察 1 第一章：探索性数据分析 * 1.6.1 任务一：利用Pandas对示例数据进行排序，要求升序 1.6.2 任务二：对泰坦尼克号数据（trian.cs…

人工智能 2023年7月18日
0049
用SAPI做一个聊天模拟器

一、目前掌握的关于SAPI的情报1、可以通过笔记本电脑的听筒和话筒，实现语音识别，语音朗读。2、可以识别出预先设定的中文内容。3、可以朗读输入的中文内容。最初的想法是在工业控制软件…

人工智能 2023年5月23日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31