利用图神经网络进行的知识图谱补全综述

2023年6月1日下午9:13 • 人工智能 • 阅读 100

A Survey on Graph Neural Networks for Knowledge Graph Completion-论文阅读笔记

前言
数据集
基本概念
*
信息传递神经网络
图卷积网络（GCN)
图注意力网络(GATs)
解码器(Decoder）
GCN Encoder用于图谱补全
SACN（ Relation Weighted GCN Encoder）
Graph Attention Encoder(图注意力编码器）
Standalone GNN for KBC
Incorporating rules with GNN（规则和GNN的结合）
*
马尔可夫网
MLN with GNN for inference
总结

作者：Siddhant Arora

单位：Indian Institute of Technology Delhi

联系方式：siddhantarora1806@gmail.com

论文地址：
论文下载

前言

最近在看图谱补全相关的内容，现在比较多的方向是采用图嵌入的方式进行学习，这篇论文综述了图神经网络在补全上的应用，值得读一读。
主要要解决的问题是( e 1 , r , ? ) (e_1,r,?)(e 1 ,r ,?)这样的预测任务。之前的诸如transE,transH都采用使用的加法模型，关系是实体之间的表达。之后提出了乘法模型Distmult,Complex等。这些模型都是翻译模型。后来提出了旋转模型（Rotate)，认为头实体可以通过旋转匹配到尾实体.

如今更多的神经网络模型用于图谱（ConvE,ConvKB)介绍了得分函数和模型一起被训练，但是这些方法都是将三元组孤立了，忽略了丰富的邻居节点的语义信息。
于是图神经网络的特性，其可以捕捉到邻居节点的信息，有很多研究聚焦于这用于图谱补全。

数据集

本文介绍了几个方法中使用的数据集。

FB15k,这是关系数据集FreeBase的子集，广泛用于图谱补全测试，数据集测试集由逆三元组组成( e 1 , r − 1 , e 2 ) (e_1,r{-}1,e_2)(e 1 ,r −1 ,e 2 ),其中( e 2 , r , e 1 ) (e_2,r,e_1)(e 2 ,r ,e 1 )在训练集中。所以一些简单的模型可以在训练集中可以得到很高的精度，所以又提出了FB15k-237移除了逆三元组。
WN18,是wordNet KB（包含了单词间的词汇关系）的子集，和FB15k类似，也存在逆三元组，所以提出了WN18RR，WN18RR有层级结构导致对所有不处理传递关系的补全模型都提出了很大的挑战。

补全的评测标准主要是分为两种：

MNN, Mean Reciprocal Rank该指标针对给定查询测量正确结果e2的倒数排名的平均值，
Hits@R,它衡量e2在排名列表的前N个中出现的次数。

; 基本概念

信息传递神经网络

这是一个17年提出的框架，旨在推广为基于图数据提出的各种神经网络。对顶点v v v的嵌入n v n_v n v ，两个顶点v v v,w w w的边的嵌入为e v w e_{vw}e v w ,首先定义信息函数。

f(·）是非线性函数，从所有的邻居节点w w w的信息聚合函数被定义为图下

其中N ( v ) N(v)N (v )是节点v v v的所有邻居集合，t是聚合时间戳，AGG是聚合函数（可以是sum，mean）等，最后节点v v v通过更新函数UPD被更新。
利用图神经网络进行的知识图谱补全综述

; 图卷积网络（GCN)

图卷据网络是基于谱神经网络的，这里贴一个我看到一个博主写的GCN，较为详细知乎，如何理解GCN
每个数据集是由顶点集，邻接矩阵和特征集组册灰姑娘的。这些特征可以是分类属性，节点标签，结构特征等等。GCNs使用如下函数聚合邻居节点信息

图注意力网络(GATs)

在GCNs中所有邻居都是同等贡献，同样这也有注意力机制，使用不同的权重来衡量不同的节点聚合信息。

GATs可以推广到不可见的节点，从而模拟现实世界，在各种任务中有STOA的成绩。
GATs的输入层是节点特征,N是节点数量。

每条边的注意力权重是的计算公式如下图
利用图神经网络进行的知识图谱补全综述

其中W W W是权重矩阵，a a a是任一注意力函数，e i j e_{ij}e i j 是节点i i i,j j j直接的边的注意力权重。对于每个节点i i i，使用softmax函数进行权重归一化。每个节点的输出嵌入又下式定义

; 解码器(Decoder）

很多的的图谱补全方法都利用GNN作为编码器来得到相邻关系三元组的信息。诸如DistMult已经存在的得分函数会初始化他的实体嵌入来丰富信息，这样比单纯使用得分函数的方法结果好。这样的得分函数称为解码器。

GCN Encoder用于图谱补全

R-GCN引入了一个局部敏感的嵌入，然后传入decoder来预测图谱中丢失的连接。需要强调的是简单的额GCN由于忽略了边的标签无法用于图嵌入。因此R-GCN修改得分函数来捕捉边的关系

R是关系的集合，N v r N_v^r N v r 是和顶点v和关系r相连的实体集合。此模型为关系设置了新的权重。他们使用偏置和块对角分解来解决无法应对大规模知识图谱问题。在偏置分解中，每个关系的权重矩阵被表示为基础矩阵的和，在块对角分解中，每个关系权重矩阵被表示为块对角矩阵的直接和。这些方法可以防止过拟合但是让每个权重矩阵都互相依赖。从而帮助更好地将从频繁发生的关系中学到的知识转移到学习权重矩阵中，以获得更好的稀有关系。
本文的方法不研究节点邻域的差分称重，也不需要解码器，因为他们不学习通过GNN框架嵌入关系。

; SACN（ Relation Weighted GCN Encoder）

通过对关系的边缘敏感，从节点领域聚合信息。这被称之为加权图卷积网络(WGCN），将整个图分为子图，每个子图只含有一种类型的关系边。GCN通过下式应用于每个子图中。

其中h v k + 1 h_v^k+1 h v k +1是节点v v v在k+1层的嵌入，N v N_v N v 是关系类型t指定的节点v的领域。g(·）就是一个简单的矩阵乘法，连接系数矩阵W是所有关系共享的。
之后利用可学习参数α t \alpha_t αt 对子图进行信息加权聚合.和R-GCN类似，SACN使用WGCN做ecoder,用Conv-TransE做解码器。而且没有改变关系和实体的形状，所以可以保持嵌入的翻译属性。还有个贡献就是这个方法使用了节点属性增强了节点嵌入，就是通过节点的关系属性添加为通过关系连接的两个实体之间的桥梁节点。
在FB15k和WN18NN数据集上取得了STOA的成绩。

Graph Attention Encoder(图注意力编码器）

上述两种方法都有处理节点关系时都采用了同等权重，KB-GAT使用注意力机制来分辨邻居节点信息的重要度。使用GNN作为编码器，使用例如ConvKB的神经网路得分函数做解码器。不同的是，他们使用GNNs来一起学习实体和关系的嵌入，对于每个三元组，他们表示了图的关系边，计算使用了下述式子

其中h i , h j h_i,h_j h i ,h j 是实体嵌入，g k g_k g k 是关系嵌入，这些嵌入式通过加法的TransE模型初始化。之后这些嵌入被concate并被乘以学习的权重矩阵W i , W j W_i,W_j W i ,W j ，之后使用softmax函数对所有边到目标节点i i i的权重矩阵进行计算，为每条边生成注意力权重。
利用图神经网络进行的知识图谱补全综述

; Standalone GNN for KBC

TransGCN是一个GCN框架联合实体和关系嵌入，所以没有使用解码器。该方法排除了任务特定解码器的需要，并避免了在编码器步骤和解码器步骤中以关系嵌入的形式对关系进行二次学习的计算成本，它的目的是利用关系嵌入来转换图中节点的现有实体嵌入，使其成为齐次图。定义了两种转换运算。.和。t = h . r , h = t ∗ r t=h.r,h=tr t =h .r ,h =t ∗r,当是入度边的时候t = h . r t=h.r t =h .r，出度的时候使用另一个。

Incorporating rules with GNN（规则和GNN的结合）

马尔可夫网

马尔可夫逻辑网络作为一阶逻辑和概率图模型的交集，将每个知识库=图谱表示为( F , w ) (F,w)(F ,w )，其中F是公式集，w是分配给每个公式的权重。马尔可夫网络是由知识图谱构造的，它通过在一边生成一个具有公式的二部图，在另一边生成它们的接地实例（ground instance)。然后利用下面给出的方程对马尔可夫网络进行推理
利用图神经网络进行的知识图谱补全综述

O O O是已被标记的事实，H H H是未被标记的事实，A f A_f A f 是grounded predictate，ϕ f \phi_f ϕf 是聚合函数定义了grounded predicates的真实值，Z ( w ) Z(w)Z (w )是正则因子。

; MLN with GNN for inference

从上个公式可以得出Z ( w ) Z(w)Z (w )需要指数级别的计算，所谓有人提出了ExpressGNN,他们用GNN使计算易于处理。首先将图谱表示为二部图，其中一边是实体，另一边是边。通过最大化已观察得到的事实的似然函数来优化，称之为P w ( O , H ) P_w(O,H)P w (O ,H )。为此，他们计算了后验概率Q θ ( H ∣ Q ) Q_{\theta}(H|Q)Q θ(H ∣Q ),未知三元组通过GNN从已知的三元组中聚合信息、他们通过EM算法来优化该过程。

总结

还有GNN的可解释性这个不想写了！大家自己看把。再看下实验结果

可以看出GNN广泛提高了知识图谱补全的STOA性能，这一成功不仅仅局限于链路预测任务，还有其他任务依旧在研究中。此外，所有的知识图完成方法都提出了一个固有的假设，即测试三元组中的所有实体都在训练时间中可以被看到，但这个假设可能不适用于实际场景。
另外我们从下图可以看出没有一个单一的方法拥有所有的优点。Express GNN和DPMPN网络似乎不能完全处理图中的异构性。最后很多方法在WN18RR上表现不好，可能是因为这些基于GNN的方法都没有有效的处理层级关系。有学者提出将知识图谱投影到双曲空间中。未来的工作可能聚焦于此。！

Original: https://blog.csdn.net/qq_37492509/article/details/111415443
Author: 球球offer
Title: 利用图神经网络进行的知识图谱补全综述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558518/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【node进阶】浅析Koa框架—ejs模板|文件上传|操作mongoDB

✅ 作者简介：一名普通本科大三的学生，致力于提高前端开发能力✨ 个人主页：前端小白在前进的主页🔥 系列专栏： node.js学习专栏⭐️ 个人社区 : 个人交流社区🍀 学习格言:…

人工智能 2023年6月29日
0088
PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model-2022.4.6

最近看到了这个PP-LiteSeg，虽然没有用过paddle但是一直想尝试下，看到这个网络结构看起来不错的亚子，先浅看下叭。论文地址代码地址pp-liteseg的代码段 pp-li…

人工智能 2023年5月28日
0088
图像分类实战：mobilenetv2从训练到TensorRT部署（pytorch）

文章目录摘要 mobilenetv2简介 * 线性瓶颈倒残差 ONNX TensorRT 项目结构训练 * 数据增强Cutout和Mixup 导入包设置全局参数图像预处理…

人工智能 2023年7月1日
0081
什么是卷积运算（Convolutiona

关于卷积运算（Convolution）卷积运算是在信号处理与深度学习中经常使用的一种数学运算，用于提取信号中的特征。它广泛应用于计算机视觉、语音处理、自然语言处理等领域。本文将详…

人工智能 2024年1月1日
0021
两条命令解决移动硬盘无法弹出的问题

dosapp-1218.rar usb-hdd-1218.rar usb-zip-fdd-1218.rar usboot-v1.68.rar 最新DOS 制作全攻略（软盘＋光盘＋…

人工智能 2023年6月27日
0090
是否每个算法都容易过拟合

问题：每个算法是否都容易过拟合？介绍过拟合是指机器学习模型在训练集上表现良好，但在未知数据上表现不佳的情况。在构建机器学习模型时，过拟合是一个常见的问题。虽然不是每个算法都容易…

人工智能 2023年12月30日
0038
Python – python如何连接sql server数据库

一、安装第三方模块首先要下载名为”pymssql”的模块，然后import该模块安装方法：1.第一种方法：按win+r—-> 输入cm…

人工智能 2023年7月5日
0078
【python】对癌症数据进行特征工程，提升lr模型的准确率（特征工程及模型聚合）

对癌症数据进行特征工程，提升lr模型的准确率 1、加载数据 2、缺失值处理 3、方差过滤 4、皮尔斯相关系数分析 5、完整代码头文件： import pandas as pd f…

人工智能 2023年7月8日
0055
1.什么是闭包

什么是闭包 1. 概念闭包（closure）指有权访问另一个函数作用域中变量的 函数。—《JavaScript高级程设计》简单理解就…

人工智能 2023年7月31日
0065
sklearn中的train_test_split()函数解析

sklearn中的train_test_split()函数解析 train_test_split()函数：机器学习中用于分割数据集（训练集和测试集） X_train,X_test,…

人工智能 2023年7月3日
0074
Cannot open D:softwareanaconda3envstf1Scriptspip-script.py

今天使用anaconda安装opencv失败（之前在别的环境下成功安装过），安装其他包都没问题。失败提示：ModuleNotFoundError: No module named…

人工智能 2023年7月19日
0050
在语音合成中，如何使生成的语音音质更加自然和流畅

问题描述在语音合成中，如何使生成的语音音质更加自然和流畅？介绍语音合成是将文本转换为自然语音的过程。生成的语音质量直接影响用户体验。为了使生成的语音更加自然和流畅，我们需要考…

人工智能 2024年1月3日
0031
ViT（Vision Transformer）全文精读

** 相关链接：原文链接：An Image is Worth 16×16 Words: Transformers for Image Recognition at Sc…

人工智能 2023年6月17日
0059
使用Anaconda安装Pytorch

PyTorch介绍：PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。其运行环境已兼容Windows (CUDA,CPU)、MacOS …

人工智能 2023年7月23日
0057
相机内参模型Scaramuzza/ocam详解

文章目录 * – + 1. 论文总述 + 2. 全向相机single viewpoint的重要性 + 3. 以前的全向相机标定 + 4. 2D –> …

人工智能 2023年6月1日
0070
用Python制作可视化报表，这也太快了！

大家好，我是小F～在数据展示中使用图表来分享自己的见解，是个非常常见的方法。这也是Tableau、Power BI这类商业智能仪表盘持续流行的原因之一，这些工具为数据提供了精美…

人工智能 2023年6月11日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30