【知识图谱系列】清华大学基于对比学习的图谱预训练模型GCC

2023年6月1日上午11:54 • 人工智能 • 阅读 85

作者：CHEONG
公众号：AI机器学习与知识图谱
研究方向：自然语言处理与知识图谱

本文介绍一篇基于对比学习的图谱预训练模型GCC（KDD 2020），介绍GCC模型核心点和模型思路，完整汇报ppt获取请关注公众号回复关键字： GCC

一、背景知识

图谱预训练作用：图神经网络(GNNs)已被证明是建模图结构数据的强大工具。然而，训练GNN模型通常需要大量的特定任务的标记数据，而获取这些数据往往非常昂贵。利用自监督GNN模型对未标记图谱数据进行预训练是减少标记工作的一种有效方法，然后将预训练学习到的模型可用在只有少量标签图谱数据的下游任务。

大规模图谱预训练： 大规模知识图谱预训练方案都需要遵守以下几个套路：首先需要进行子图采样，使用子图进行模型训练；其次采用自监督学习模式，Mask图中的节点或边然后进行训练；计算Loss时需要进行负采样，图规模大无法基于全部负样例。

Contrastive Learning 对比学习： 自监督学习方案常用的两种方式，一种是生成式学习，另一种就是对比学习。对比学习主要利用了样本间的约束信息构造辅助任务，通过构建正样本和负样本，然后度量正负样本的距离进行自监督学习。对比学习的关键就在于如何合理定义正负样本，也是难点所在。

Generative Learning 生成式学习：生成式方法以自编码器为代表，在自编码器中对数据样本编码成特征再解码重构，以此来学习样本的特征表达。在上一篇文章中介绍的就是基于生成式图谱预训练模型GPT-GNN。

下面通过一个大家常用的例子来理解一下Contrastive Learning和Generative Learning的区别，先给出结论：对比学习和生成式学习区别在于生成式学习目的在于学习到样本的细节特征，而对比学习目的在于学习正负样本之间的区别。

Epstein在2016年做了一个实验，让受试者尽可能详细的画出一张美元的图片，如上左图是受试者凭着记忆画出来的，右图是受试者照着美元画出来的。可以看出虽然左图不够细节但美元的关键特征都具备了，完全可以识别出是一张美元。同理，Generative Learning需要对图片细节进行重构来学习到样本特征，而Contrastive Learning只需要学习到特征空间的区别性，即学习到正负样例之间的区别，不关注样本本身的细节信息。这就是对比学习和生成式学习的主要区别。

; 二、GCC核心方法

GCC模型是一个自监督的对比学习预训练框架。基于对比学习的预训练方法主要利用了样本间的约束信息构造辅助任务，通过构建正样本和负样本，然后度量正负样本的距离进行自监督学习。

GCC预训练模型是利用图的结构信息对图数据进行预训练，不用依赖节点和边的信息，可以避免复杂的特征工程，更具有普适性。而GCC的缺点便是数据生成部分耗时过多，主要是Random Walk获取Subgraph Instances时耗时。下面再具体看一下GCC如何进行图谱自监督的对比学习预训练。

GCC预训练任务：Subgraph Instance Discrimination，我们需要弄明白以下三个问题：
问题1： 如何定义图中的subgraphinstance子图实例；

问题2： 如何定义Subgraph Instances之间的相似度；
问题3： 如何对Subgraph Instances进行编码表征。

基本假设： 在正式介绍三个问题解法之前，明白GCC的基本假设是：如果图中两个不同节点具有相似的结构信息，则两个节点表示也是相似的。

问题1解决方案： 如何定义图中的Subgraph Instance子图实例：首先定义A r-ego Network，即一个限定跳数为r的子网络，对于一个节点v，通过Random Walk的方式获取节点v一个限定跳数为r的子网络，便得到了一个Subgraph Instance实例。

问题2解决方案： 如何定义Subgraph Instance之间的相似度：定义以节点v为中心出发的两个Random Walk得到的A r-ego Network作为两个相似的Subgraph Instance；这便得到了正样例，而负样例是选择一个其他不同于v的节点，进行随机游走，以此得到负样例。文中给出了两种生成负样例的方式：分别是 E2E（负样例从同一个Mini-Batch中抽取）， MoCo（保存历史子图来获取负样例，不用每次重新Random Walk）

问题3解决方案： 如何对Subgraph Instance进行编码表征：使用了Graph Isomorphism Network（GIN）对Subgraph Instance进行编码，下面公式展示了GIN节点汇聚更新公式：

三、GCC模型损失函数

GCC模型训练Loss Function定义，用到了Noise-Contrastive Estimation(NCE) Loss，也就是在Representation Learning with Contrastive Predictive Coding这篇论文中定义的InfoNCE Loss，本文公式如下：

其中τ是超参数，f q f_q f q 和f k f_k f k 是两个图神经网络，用于编码query instance x q x^q x q和每一个key instance x k x^k x k成表征向量。本文使用的Graph Encoder是Graph Isomorphism Network即GIN模型。

从公式可以看出分子是x q x^q x q和正样例的相似度，分母是x q x^q x q和负样例的相似度，因此优化loss时，随着loss越小分子趋向越大分母趋向越小，就是在训练模型区分开正样例和负样例的能力，也体现了对比学习的含义。

; 四、举个例子

从下图中可以看出，x q x^q x q是query instance，x ( k 0 ) x^(k_0 )x (k 0 )是正样例，x ( k 1 ) x^(k_1 )x (k 1 ),x ( k 2 ) x^(k_2 )x (k 2 )是负样例，通过对比学习让x q x^q x q和正样例x ( k 0 ) x^(k_0 )x (k 0 )尽可能相似，让x q x^q x q和负样例x ( k 1 ) x^(k_1 )x (k 1 ), x ( k 2 ) x^(k_2 )x (k 2 )尽可能远离。

看下图，左边是Pre-Training阶段，可以看出GCC模型是跨三个图谱数据集Facebook，IMDB和DBLP进行了预训练，目的在于学习图谱间共有的结构特征信息，GCC模型在Fine-Tuning阶段可以进行Node Classification，Graph Classification和Similarity Search等多种任务。GCC模型共提供了两种Fine-Tuning方法，分别是Freezing和Full Fine-Tuning，在Freezing模式时，预训练得到的图编码器f_q参数固定，作为一个静态特征提取器，为下游任务提供基础特征。在Full Fine-Tuning模式时，用预训练参数初始化的图编码器f_q与下游任务上的分类器一起进行端到端的训练。

五、结论

结论：实验结果证明对于领域外的任务，GCC可以提供和专用的特定图的模型相当或更好的性能。更详细结论请参见原文。

; 六、往期精彩

【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战，看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇：最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码

汇报完整版ppt可通过关注公众号后回复关键词： GCC 来获得，有用就点个赞呗

Original: https://blog.csdn.net/feilong_csdn/article/details/117149944
Author: CHEONG_KG
Title: 【知识图谱系列】清华大学基于对比学习的图谱预训练模型GCC

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556747/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【数据分析】：数据分析三大思路及方法

数据分析三大思路及方法在上一篇博文【什么是数据分析】中，我们介绍了数据分析的基本概念、流程、方法。这篇文章我们来看看数据分析的基本思路以及常见的数据分析方法。在互联网分析中，基本…

人工智能 2023年7月15日
0074
Python3，这个库，真的是图片类型验证码的克星，真香。

万能验证码库 1、引言 2、 ddddocr * 2.1 介绍 2.2 安装 2.3 使用 – 2.3.1 滑块验证码 2.3.2 点选类验证码 2.3.3 字母数字验…

人工智能 2023年5月24日
00121
经典网络结构 (七)：FPN, DetNet

目录多尺度问题特征金字塔: FPN (Feature Pyramid Network, 特征金字塔) 为检测而生: DetNet References 本文主要介绍两个用于物体…

人工智能 2023年7月12日
0074
opencv-python学习笔记（十一）：HOG+SVM进行行人检测全过程

引言本次是接着python-opencv学习笔记（七）：滑动窗口与图像金字塔一起在实验楼所做实验，为啥中间隔了四篇才接着发出来，主因是我发文比较随意（懒），当时这部分并没有总结…

人工智能 2023年5月28日
0073
Numpy图解(一)–向量

目录 Numpy数组与Python列表 Numpy向量向量初始化向量索引向量运算 Numpy数组与Python列表它们都可以用作容器，具有获取（getting）和设置（se…

人工智能 2023年7月15日
0067
状态空间_1

状态空间概述问题记录：为什么状态空间方程中输出，状态倒数等于输入和状态之和而不是乘或者别的符号？控制器,观测器形式的状态空间方程咋来的?,形式如何理解?为什么两者的关系是转置…

人工智能 2023年6月4日
0084
QT使用OpenCV实现摄像头显示实时图像

之前一直都是Windows下配置OpenCV进行使用，最近因为项目需求，所有的操作系统均换成银河麒麟，不得不在该系统下对OpenCV源码进行编译安装，多次测试之后终于可以跑通，把跑…

人工智能 2023年7月19日
0069
YOLOX-PAI:加速YOLOX,比YOLOV6更快更强

作者：忻怡、周楼、谦言、临在导言目标检测（object detection）旨在定位并识别出图像中的目标物体，一直以来都是计算机视觉领域研究的热点问题，也是自动驾驶、目标追踪等…

人工智能 2023年6月16日
0096
Pytorch实战__LSTM做文本分类

介绍首先需要指出的是，代码是从李宏毅老师的课程中下载的，并不是我自己码的。这篇文章主要是在原代码中加了一些讲解和注释，以及将繁体字改成了简体字。我们需要处理的问题是将Twitte…

人工智能 2023年6月17日
0088
【阿里妈妈营销科学系列】第七篇：目标群组发现

丨目录： · 分析背景 · 基本概念 · 解决方案 · 方案流程 · 案例参考 · 关于我们 ▐ 分析背景在行业运营的场景中，我们需要针对业务目标，从”人-货-场-店…

人工智能 2023年6月11日
0082
数仓大宽表

个人建议是：宽表可以从很多的表中结合数据，但是鉴于宽表自身的缺陷，不建议过”宽”，在无法提前做测试的情况下，尽量只使用”小宽表”，…

人工智能 2023年7月17日
0050
低光图像目标检测的研究成果总结

1、A Novel Method to Compensate Variety of Illumination In Face Detection 本文介绍了一些基于空间域的传统方法…

人工智能 2023年7月9日
0060
使用GDB调试TensorFlow C++代码

我们有时需要调试TensorFlow的C++代码，本文提供了一套相关调试流程。文章目录 * – 一、源码安装TensorFlow – 二、卸载Tensor…

人工智能 2023年5月25日
0097
矩池云快速安装torch-sparse、torch-geometric等包

租用机器，按自己需要的环境选择一个环境，我这里选择的是Pytorch 1.10。租用成功后点击租用页面的 Jupyterlab 链接。 Jupyterlab 里新建一个Termi…

人工智能 2023年6月4日
0097
pandas基础_1

数据使用泰坦尼克数据基本操作读取训练集数据 df = pd.read_csv(‘train.csv’) 常用的基本信息查询 df.head() #默&am…

人工智能 2023年7月6日
0044
毕业设计第一次总结（基于知识图谱的医疗问答）

毕业设计第一次总结（基于知识图谱的医疗问答）写在文章前面：之所以做总结是因为本人也是一个刚入门知识图谱的本科萌新，也不是什么大佬，在整个过程中遇到了不少困难，然后也有一些自己的心…

人工智能 2023年6月1日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【知识图谱系列】清华大学基于对比学习的图谱预训练模型GCC

大家都在看